TingIS: Echtzeit-Erkennung von Risikoereignissen aus verrauschten Kundenmeldungen im Unternehmensmaßstab

Zusammenfassung

Die Echtzeiterkennung und -behebung technischer Anomalien ist entscheidend für groß angelegte cloud-native Dienste, bei denen bereits wenige Minuten Ausfallzeit zu massiven finanziellen Verlusten und einem verringerten Nutzervertrauen führen können. Während Kundenvorfälle ein wichtiges Signal zur Entdeckung von Risiken darstellen, die von der Überwachung übersehen wurden, bleibt die Extraktion verwertbarer Erkenntnisse aus diesen Daten aufgrund extremer Störsignale, hohem Durchsatz und der semantischen Komplexität verschiedener Geschäftsbereiche eine Herausforderung. In diesem Artikel stellen wir TingIS vor, ein End-to-End-System zur unternehmensweiten Erkennung von Vorfällen. Das Herzstück von TingIS ist eine mehrstufige Ereignisverknüpfungs-Engine, die effiziente Indexierungstechniken mit Large Language Models (LLMs) kombiniert, um fundierte Entscheidungen über die Zusammenführung von Ereignissen zu treffen und so die stabile Extraktion handlungsrelevanter Vorfälle aus nur einer Handvoll unterschiedlicher Benutzerbeschreibungen zu ermöglichen. Diese Engine wird durch einen kaskadierten Routing-Mechanismus zur präzisen Geschäftsattribuierung und eine mehrdimensionale Pipeline zur Rauschunterdrückung ergänzt, die Domänenwissen, statistische Muster und Verhaltensfilterung integriert. Im Produktionseinsatz bei einer Spitzenlast von über 2.000 Nachrichten pro Minute und 300.000 Nachrichten pro Tag erreicht TingIS eine P90-Alarmlatenz von 3,5 Minuten und eine Erkennungsrate von 95 % für hochprioritäre Vorfälle. Benchmarks auf Basis realer Daten zeigen, dass TingIS Baseline-Methoden in Bezug auf Routing-Genauigkeit, Clustering-Qualität und Signal-Rausch-Verhältnis deutlich übertrifft.

English

Real-time detection and mitigation of technical anomalies are critical for large-scale cloud-native services, where even minutes of downtime can result in massive financial losses and diminished user trust. While customer incidents serve as a vital signal for discovering risks missed by monitoring, extracting actionable intelligence from this data remains challenging due to extreme noise, high throughput, and semantic complexity of diverse business lines. In this paper, we present TingIS, an end-to-end system designed for enterprise-grade incident discovery. At the core of TingIS is a multi-stage event linking engine that synergizes efficient indexing techniques with Large Language Models (LLMs) to make informed decisions on event merging, enabling the stable extraction of actionable incidents from just a handful of diverse user descriptions. This engine is complemented by a cascaded routing mechanism for precise business attribution and a multi-dimensional noise reduction pipeline that integrates domain knowledge, statistical patterns, and behavioral filtering. Deployed in a production environment handling a peak throughput of over 2,000 messages per minute and 300,000 messages per day, TingIS achieves a P90 alert latency of 3.5 minutes and a 95\% discovery rate for high-priority incidents. Benchmarks constructed from real-world data demonstrate that TingIS significantly outperforms baseline methods in routing accuracy, clustering quality, and Signal-to-Noise Ratio.

TingIS: Echtzeit-Erkennung von Risikoereignissen aus verrauschten Kundenmeldungen im Unternehmensmaßstab

TingIS: Real-time Risk Event Discovery from Noisy Customer Incidents at Enterprise Scale

Zusammenfassung

Support