TingIS: Real-time Ontdekking van Risicogebeurtenissen uit Ruisrijke Klantincidenten op Enterpriseschaal

Samenvatting

Real-time detectie en mitigatie van technische anomalieën zijn cruciaal voor grootschalige cloud-native diensten, waar zelfs minuten van uitval kunnen resulteren in enorme financiële verliezen en verminderd gebruikersvertrouwen. Hoewel klantincidenten een essentieel signaal vormen voor het ontdekken van risico's die door monitoring worden gemist, blijft het extraheren van bruikbare inzichten uit deze gegevens een uitdaging vanwege extreme ruis, hoge doorvoer en semantische complexiteit van diverse bedrijfsonderdelen. In dit artikel presenteren we TingIS, een end-to-end systeem ontworpen voor enterprise-grade incidentdetectie. De kern van TingIS vormt een multi-staps gebeurtenislinkmotor die efficiënte indexeringstechnieken combineert met Large Language Models (LLM's) om geïnformeerde beslissingen te nemen over gebeurtenissamenvoeging, waardoor stabiele extractie van bruikbare incidenten uit slechts een handvol diverse gebruikersbeschrijvingen mogelijk wordt. Deze motor wordt aangevuld met een gecascadeerd routeringsmechanisme voor precieze bedrijfsattributie en een multidimensionele ruisreductiepijplijn die domeinkennis, statistische patronen en gedragsfiltering integreert. In een productieomgeving met een piekdoorvoer van meer dan 2.000 berichten per minuut en 300.000 berichten per dag behaalt TingIS een P90-waarschuwingslatentie van 3,5 minuten en een detectiepercentage van 95% voor hoogprioritaire incidenten. Benchmarks opgebouwd uit real-world gegevens tonen aan dat TingIS baseline-methoden significant overtreft in routeringsnauwkeurigheid, clusterkwaliteit en signaal-ruisverhouding.

English

Real-time detection and mitigation of technical anomalies are critical for large-scale cloud-native services, where even minutes of downtime can result in massive financial losses and diminished user trust. While customer incidents serve as a vital signal for discovering risks missed by monitoring, extracting actionable intelligence from this data remains challenging due to extreme noise, high throughput, and semantic complexity of diverse business lines. In this paper, we present TingIS, an end-to-end system designed for enterprise-grade incident discovery. At the core of TingIS is a multi-stage event linking engine that synergizes efficient indexing techniques with Large Language Models (LLMs) to make informed decisions on event merging, enabling the stable extraction of actionable incidents from just a handful of diverse user descriptions. This engine is complemented by a cascaded routing mechanism for precise business attribution and a multi-dimensional noise reduction pipeline that integrates domain knowledge, statistical patterns, and behavioral filtering. Deployed in a production environment handling a peak throughput of over 2,000 messages per minute and 300,000 messages per day, TingIS achieves a P90 alert latency of 3.5 minutes and a 95\% discovery rate for high-priority incidents. Benchmarks constructed from real-world data demonstrate that TingIS significantly outperforms baseline methods in routing accuracy, clustering quality, and Signal-to-Noise Ratio.

TingIS: Real-time Ontdekking van Risicogebeurtenissen uit Ruisrijke Klantincidenten op Enterpriseschaal

TingIS: Real-time Risk Event Discovery from Noisy Customer Incidents at Enterprise Scale

Samenvatting

Support