TingIS : Découverte en temps réel d'événements à risque à partir d'incidents clients bruyants à l'échelle de l'entreprise

Résumé

La détection et l'atténuation en temps réel des anomalies techniques sont essentielles pour les services cloud-natifs à grande échelle, où même quelques minutes d'indisponibilité peuvent entraîner des pertes financières considérables et une érosion de la confiance des utilisateurs. Bien que les incidents clients constituent un signal crucial pour identifier les risques non détectés par la surveillance, l'extraction d'informations exploitables à partir de ces données reste difficile en raison du bruit extrême, du débit élevé et de la complexité sémantique des différentes lignes métier. Dans cet article, nous présentons TingIS, un système de bout en bout conçu pour la découverte d'incidents de niveau entreprise. Au cœur de TingIS se trouve un moteur de liaison d'événements multi-étapes qui combine des techniques d'indexation efficaces avec des modèles de langage de grande taille (LLM) pour prendre des décisions éclairées sur la fusion des événements, permettant l'extraction stable d'incidents exploitables à partir de seulement quelques descriptions utilisateurs variées. Ce moteur est complété par un mécanisme de routage en cascade pour l'attribution précise des métiers et un pipeline de réduction du bruit multidimensionnel qui intègre les connaissances métier, les modèles statistiques et le filtrage comportemental. Déployé dans un environnement de production traitant un débit de pointe de plus de 2 000 messages par minute et 300 000 messages par jour, TingIS atteint une latence P90 de 3,5 minutes pour les alertes et un taux de détection de 95 % pour les incidents de haute priorité. Des benchmarks construits à partir de données réelles démontrent que TingIS surpasse significativement les méthodes de référence en termes de précision du routage, de qualité de regroupement et de rapport signal sur bruit.

English

Real-time detection and mitigation of technical anomalies are critical for large-scale cloud-native services, where even minutes of downtime can result in massive financial losses and diminished user trust. While customer incidents serve as a vital signal for discovering risks missed by monitoring, extracting actionable intelligence from this data remains challenging due to extreme noise, high throughput, and semantic complexity of diverse business lines. In this paper, we present TingIS, an end-to-end system designed for enterprise-grade incident discovery. At the core of TingIS is a multi-stage event linking engine that synergizes efficient indexing techniques with Large Language Models (LLMs) to make informed decisions on event merging, enabling the stable extraction of actionable incidents from just a handful of diverse user descriptions. This engine is complemented by a cascaded routing mechanism for precise business attribution and a multi-dimensional noise reduction pipeline that integrates domain knowledge, statistical patterns, and behavioral filtering. Deployed in a production environment handling a peak throughput of over 2,000 messages per minute and 300,000 messages per day, TingIS achieves a P90 alert latency of 3.5 minutes and a 95\% discovery rate for high-priority incidents. Benchmarks constructed from real-world data demonstrate that TingIS significantly outperforms baseline methods in routing accuracy, clustering quality, and Signal-to-Noise Ratio.

TingIS : Découverte en temps réel d'événements à risque à partir d'incidents clients bruyants à l'échelle de l'entreprise

TingIS: Real-time Risk Event Discovery from Noisy Customer Incidents at Enterprise Scale

Résumé

Support