ChatPaper.aiChatPaper

TingIS: Descubrimiento en Tiempo Real de Eventos de Riesgo a partir de Incidentes de Clientes Ruidosos a Escala Empresarial

TingIS: Real-time Risk Event Discovery from Noisy Customer Incidents at Enterprise Scale

April 23, 2026
Autores: Jun Wang, Ziyin Zhang, Rui Wang, Hang Yu, Peng Di, Rui Wang
cs.AI

Resumen

La detección y mitigación en tiempo real de anomalías técnicas es fundamental para servicios cloud nativos a gran escala, donde incluso minutos de inactividad pueden resultar en pérdidas financieras masivas y una disminución de la confianza del usuario. Si bien los incidentes de los clientes son una señal vital para descubrir riesgos pasados por alto por la monitorización, extraer información procesable de estos datos sigue siendo un desafío debido al ruido extremo, el alto rendimiento y la complejidad semántica de diversas líneas de negocio. En este artículo, presentamos TingIS, un sistema integral diseñado para el descubrimiento de incidentes de nivel empresarial. En el núcleo de TingIS se encuentra un motor de vinculación de eventos multi-etapa que combina técnicas de indexación eficientes con Modelos de Lenguaje a Gran Escala (LLMs) para tomar decisiones fundamentadas sobre la fusión de eventos, permitiendo la extracción estable de incidentes procesables a partir de solo un puñado de descripciones diversas de usuarios. Este motor se complementa con un mecanismo de enrutamiento en cascada para una atribución precisa del negocio y un proceso de reducción de ruido multidimensional que integra conocimiento del dominio, patrones estadísticos y filtrado conductual. Implementado en un entorno de producción que maneja un rendimiento máximo de más de 2,000 mensajes por minuto y 300,000 mensajes por día, TingIS logra una latencia P90 de alerta de 3.5 minutos y una tasa de descubrimiento del 95% para incidentes de alta prioridad. Los puntos de referencia construidos a partir de datos del mundo real demuestran que TingIS supera significativamente a los métodos base en precisión de enrutamiento, calidad de agrupamiento y Relación Señal-Ruido.
English
Real-time detection and mitigation of technical anomalies are critical for large-scale cloud-native services, where even minutes of downtime can result in massive financial losses and diminished user trust. While customer incidents serve as a vital signal for discovering risks missed by monitoring, extracting actionable intelligence from this data remains challenging due to extreme noise, high throughput, and semantic complexity of diverse business lines. In this paper, we present TingIS, an end-to-end system designed for enterprise-grade incident discovery. At the core of TingIS is a multi-stage event linking engine that synergizes efficient indexing techniques with Large Language Models (LLMs) to make informed decisions on event merging, enabling the stable extraction of actionable incidents from just a handful of diverse user descriptions. This engine is complemented by a cascaded routing mechanism for precise business attribution and a multi-dimensional noise reduction pipeline that integrates domain knowledge, statistical patterns, and behavioral filtering. Deployed in a production environment handling a peak throughput of over 2,000 messages per minute and 300,000 messages per day, TingIS achieves a P90 alert latency of 3.5 minutes and a 95\% discovery rate for high-priority incidents. Benchmarks constructed from real-world data demonstrate that TingIS significantly outperforms baseline methods in routing accuracy, clustering quality, and Signal-to-Noise Ratio.
PDF92April 25, 2026