Vucos Logo

Observability & monitoring

Traces, metrics en logs — gecorreleerd, bevraagbaar en van jou. De observability-ruggengraat die een incident om 3 uur 's nachts omzet in 9 minuten mean time to diagnose, in plaats van een war room-jacht door vijf vendor-consoles.

9 min
Mean time to diagnose na NOC-modernisering
1 min
Metric-resolutie voor live dashboards
2 jaar
Metric-retentie op volle resolutie
73%
Reductie in dubbele on-call pages

Eén signaalvlak, elke laag

Vucos Observability is een geünificeerd telemetrievlak gebouwd op OpenTelemetry. Elke service zendt distributed traces, metrics en gestructureerde logs uit die dezelfde trace-ID's, tenant-ID's en sessie-ID's delen — zodat een playback-fout, een DRM-licentieweigering en een billing-webhook retry in één query samenkomen. SLO's, alert-regels en NOC-klare dashboards komen als default en zijn volledig customizable; telemetrie stroomt ook uit naar operator-stacks als Grafana, Datadog en Splunk.

Waarom dit ertoe doet

OTT op schaal runnen is een distributed-systems probleem. Eén kijkerklacht kan een dozijn services raken — authenticatie, entitlement, DRM, origin, CDN, player-telemetrie, billing, CDN-logs — elk met eigen latency, fouten en retry. Zonder geünificeerde observability brengen on-call engineers het grootste deel van een incident door met het correleren van timestamps tussen tools in plaats van het oplossen. MTTR rekt uit, dezelfde incidenten herhalen zich en het NOC behandelt elke piek als nieuw.

Vucos levert observability als product-primitive, geen bolt-on. Trace-ID's propageren end-to-end door ingest, encoding, edge, API en client. Elke metric leeft in dezelfde store met minuut-resolutie en meerjarige retentie waar het telt. Alert-regels komen voorbedraad voor de failure modes die OTT daadwerkelijk raken — geen generieke CPU- en memory-alerts.

Wat het platform blootlegt

Distributed tracing

OpenTelemetry-native traces die een request volgen van de player-SDK door edge, API, backend-services en externe vendors. W3C trace context, head-based sampling, volledige span-attributen.

Hoog-cardinale metrics

Prometheus-compatibele metrics met 1-minuut resolutie en configureerbare retentie. Hoog-cardinale labels (tenant, device, content-ID, CDN) blijven bevraagbaar zonder pre-aggregatie.

Gestructureerde logs

JSON-gestructureerde logs met trace-correlatie, tenant-scoping en PII-bewust field masking. Doorzoekbaar via de console of gestreamd naar je SIEM.

SLO's & error budgets

Service Level Objectives voor playback-startup, rebuffer-ratio, API-beschikbaarheid en DRM-licentie latency — met burn-rate alerts, resterend error budget en wekelijkse reviewrapporten.

Alerting & on-call

Native integraties met PagerDuty, Opsgenie, Slack en Microsoft Teams. Multi-signaal alerts verminderen paging-ruis; elke alert linkt terug naar de traces en logs die hem afvuurden.

NOC-klare dashboards

Kant-en-klare dashboards voor live-event war rooms, regionale gezondheid, CDN portfolio-prestaties, DRM-succesrates en abonnee-impact — gebrand voor je NOC-schermen.

Hoe operators het inzetten

Pay-TV operator

NOC-modernisering

Een muur vendor-specifieke dashboards (encoder, CDN, DRM, billing) werd vervangen door één operatie-view. Trace-gekoppelde alerts verkortten mean time to diagnose van 42 naar 9 minuten en verminderden dubbele pages met 73%.

Sportomroep

Live-event war room

Tijdens grote wedstrijden toont een toegewijd war-room dashboard gelijktijdige kijkers, QoE-percentielen per regio, CDN-splitsing en omzet in gevaar — met burn-rate alerts die afgaan vóór kijkerklachten social media bereiken.

SVOD-dienst

Incident post-mortem traceerbaarheid

Elk productie-incident behoudt 90 dagen traces, inclusief de geraakte kijkersessies, de upstream-oorzaak (bv. DRM-vendor latency) en de omzetimpact — post-mortems worden engineering-documenten in plaats van speculatie.

Technische details

Telemetriestandaarden
  • OpenTelemetry traces, metrics, logs
  • W3C Trace Context propagatie
  • Prometheus exposition
  • OTLP en HTTP export
Retentie
  • Metrics: 2 jaar op 1-minuut resolutie
  • Traces: 7-30 dagen (configureerbaar)
  • Logs: 90 dagen hot, meerjarig cold
  • SLO-rapporten: onbeperkt
Alert-integraties
  • PagerDuty
  • Opsgenie
  • Slack
  • Microsoft Teams
  • Webhooks
  • E-mail
Export-bestemmingen
  • Grafana
  • Datadog
  • Splunk
  • New Relic
  • Honeycomb
  • Elastic / OpenSearch
SLO-dekking
  • Playback startup (p95)
  • Rebuffer-ratio
  • API-beschikbaarheid
  • DRM-licentie latency
  • Manifest-delivery
  • Ingest-gezondheid
Toegang & beveiliging
  • SSO via SAML en OIDC
  • Scoped RBAC
  • Audit log van query- en alert-wijzigingen
  • PII field masking

Key Takeaways

  • OpenTelemetry-native traces, metrics en logs met end-to-end trace-ID's
  • Hoog-cardinale metrics bevraagbaar per tenant, device, content en CDN
  • SLO's voor playback-startup, rebuffer, API en DRM-licentie latency
  • NOC-klare dashboards voor live-events, regionale gezondheid en CDN-portfolio
  • Native alert-routing naar PagerDuty, Opsgenie, Slack en Teams
  • Export naar Grafana, Datadog, Splunk, Honeycomb en je eigen stack

Veelgestelde vragen

Moeten we Vucos-dashboards gebruiken of kunnen we onze eigen stack houden?
Beide. Vucos levert eerstelijns dashboards voor het ops-team dat ze vanaf dag één wil, maar elk signaal — traces, metrics, logs — stroomt via standaard OpenTelemetry- en Prometheus-endpoints uit naar Grafana, Datadog, Splunk of welk tool je vandaag draait. Veel operators gebruiken Vucos voor OTT-specifieke views en hun bestaande tool voor al het andere.
Hoe werkt trace-correlatie over vendors heen?
Trace-context propageert via W3C-standaarden door elke Vucos-service en naar derde-partij vendors die het ondersteunen (de meeste CDN's, DRM-providers en ad-servers doen dit nu). Wanneer een vendor het niet doet, vangt Vucos de uitgaande request en respons met correlerende ID's en linkt ze terug in de trace-graph — zelfs een vendor black box laat een zichtbaar span achter.
Zijn de SLO's vast of kunnen we eigen definiëren?
Vaste defaults dekken de metrics die tellen voor elke OTT-service (startup, rebuffer, API-beschikbaarheid, DRM-licentie, ingest). Daarbuiten definieer je zelf: kies een metric, zet target, venster en burn-rate alerts. SLO's zijn first-class objecten met wijzigingsgeschiedenis en wekelijkse auto-rapporten.
Wat is de PII-houding op logs en traces?
Velden met PII worden op schemaniveau gemarkeerd en op basis van tenant-beleid gemaskeerd, gehashed of gedropt. Trace-attributen krijgen dezelfde behandeling. Query-toegang is RBAC-gescoped en elke query wordt geaudit — vooral belangrijk voor operators in gereguleerde markten of onder GDPR/DPA-verplichtingen.
Kunnen we pagen op multi-signaal condities, niet slechts één metric?
Ja. Alert-regels combineren metrics, traces en log-patronen. Klassiek voorbeeld: pagen alleen als rebuffer-ratio > 1%, gelijktijdige kijkers > 100k en de player-SDK error-stream CDN-specifieke codes toont — zodat de page afvuurt op een echt incident, geen statistische nachtelijke wobble.
Hoe verschilt dit van Vucos Analytics?
Analytics is voor business- en product-signalen (ARPU, churn, content-ROI, QoE-trends) — voor analisten en leadership. Observability is voor engineering-signalen (traces, runtime-metrics, error budgets) — voor on-call en NOC. Ze delen de onderliggende telemetrie maar optimaliseren voor verschillende doelgroepen en retentiehorizonten.

Gerelateerd

Klaar om meer te weten te komen?

Praat met een architect over hoe dit past bij uw uitrol.