TingIS: Rilevamento in Tempo Reale di Eventi di Rischio da Segnalazioni Clienti Rumore su Scala Aziendale

Abstract

La rilevazione e mitigazione in tempo reale delle anomalie tecniche sono fondamentali per servizi cloud-native su larga scala, dove anche pochi minuti di inattività possono causare ingenti perdite finanziarie e minare la fiducia degli utenti. Sebbene gli incidenti segnalati dai clienti rappresentino un segnale cruciale per individuare rischi sfuggiti al monitoraggio, l'estrazione di informazioni fruibili da questi dati rimane complessa a causa dell'elevato rumore, dell'alta velocità di trasmissione e della complessità semantica dei diversi business. In questo articolo presentiamo TingIS, un sistema end-to-end progettato per l'individuazione di incidenti di livello enterprise. Il cuore di TingIS è un motore di collegamento eventi multi-stadio che combina tecniche di indicizzazione efficienti con Large Language Model (LLM) per prendere decisioni informate sulla fusione degli eventi, consentendo l'estrazione stabile di incidenti azionabili partendo da poche descrizioni utente eterogenee. Questo motore è integrato da un meccanismo di instradamento a cascata per l'attribuzione precisa al business e una pipeline di riduzione del rumore multidimensionale che incorpora conoscenze di dominio, pattern statistici e filtri comportamentali. Implementato in un ambiente di produzione con picchi di oltre 2.000 messaggi al minuto e 300.000 messaggi giornalieri, TingIS raggiunge una latenza P90 degli alert di 3,5 minuti e un tasso di rilevamento del 95% per gli incidenti ad alta priorità. Benchmark costruiti su dati reali dimostrano che TingIS supera significativamente i metodi baseline in accuratezza di routing, qualità del clustering e rapporto segnale-rumore.

English

Real-time detection and mitigation of technical anomalies are critical for large-scale cloud-native services, where even minutes of downtime can result in massive financial losses and diminished user trust. While customer incidents serve as a vital signal for discovering risks missed by monitoring, extracting actionable intelligence from this data remains challenging due to extreme noise, high throughput, and semantic complexity of diverse business lines. In this paper, we present TingIS, an end-to-end system designed for enterprise-grade incident discovery. At the core of TingIS is a multi-stage event linking engine that synergizes efficient indexing techniques with Large Language Models (LLMs) to make informed decisions on event merging, enabling the stable extraction of actionable incidents from just a handful of diverse user descriptions. This engine is complemented by a cascaded routing mechanism for precise business attribution and a multi-dimensional noise reduction pipeline that integrates domain knowledge, statistical patterns, and behavioral filtering. Deployed in a production environment handling a peak throughput of over 2,000 messages per minute and 300,000 messages per day, TingIS achieves a P90 alert latency of 3.5 minutes and a 95\% discovery rate for high-priority incidents. Benchmarks constructed from real-world data demonstrate that TingIS significantly outperforms baseline methods in routing accuracy, clustering quality, and Signal-to-Noise Ratio.

TingIS: Rilevamento in Tempo Reale di Eventi di Rischio da Segnalazioni Clienti Rumore su Scala Aziendale

TingIS: Real-time Risk Event Discovery from Noisy Customer Incidents at Enterprise Scale

Abstract

Support