ChatPaper.aiChatPaper

TingIS: Descoberta de Eventos de Risco em Tempo Real a partir de Incidentes de Clientes Ruidosos em Escala Empresarial

TingIS: Real-time Risk Event Discovery from Noisy Customer Incidents at Enterprise Scale

April 23, 2026
Autores: Jun Wang, Ziyin Zhang, Rui Wang, Hang Yu, Peng Di, Rui Wang
cs.AI

Resumo

A detecção e mitigação em tempo real de anomalias técnicas são críticas para serviços em grande escala baseados em nuvem nativa, onde mesmo minutos de indisponibilidade podem resultar em perdas financeiras massivas e diminuição da confiança dos utilizadores. Embora os incidentes reportados pelos clientes constituam um sinal vital para a descoberta de riscos não captados pela monitorização, a extração de informações acionáveis a partir destes dados permanece um desafio devido ao ruído extremo, alta taxa de transferência e complexidade semântica das diversas linhas de negócio. Neste artigo, apresentamos o TingIS, um sistema de ponta a ponta concebido para a descoberta de incidentes de nível empresarial. O núcleo do TingIS é um motor de ligação de eventos em múltiplos estágios que combina técnicas de indexação eficientes com Modelos de Linguagem de Grande Escala (LLMs) para tomar decisões fundamentadas sobre a fusão de eventos, permitindo a extração estável de incidentes acionáveis a partir de um pequeno número de descrições diversificadas dos utilizadores. Este motor é complementado por um mecanismo de encaminhamento em cascata para atribuição precisa do negócio e por um pipeline de redução de ruído multidimensional que integra conhecimento de domínio, padrões estatísticos e filtragem comportamental. Implementado num ambiente de produção que processa um pico de mais de 2.000 mensagens por minuto e 300.000 mensagens por dia, o TingIS alcança uma latência P90 de alerta de 3,5 minutos e uma taxa de descoberta de 95% para incidentes de alta prioridade. *Benchmarks* construídos a partir de dados do mundo real demonstram que o TingIS supera significativamente os métodos de base em precisão de encaminhamento, qualidade de agrupamento e Relação Sinal-Ruído.
English
Real-time detection and mitigation of technical anomalies are critical for large-scale cloud-native services, where even minutes of downtime can result in massive financial losses and diminished user trust. While customer incidents serve as a vital signal for discovering risks missed by monitoring, extracting actionable intelligence from this data remains challenging due to extreme noise, high throughput, and semantic complexity of diverse business lines. In this paper, we present TingIS, an end-to-end system designed for enterprise-grade incident discovery. At the core of TingIS is a multi-stage event linking engine that synergizes efficient indexing techniques with Large Language Models (LLMs) to make informed decisions on event merging, enabling the stable extraction of actionable incidents from just a handful of diverse user descriptions. This engine is complemented by a cascaded routing mechanism for precise business attribution and a multi-dimensional noise reduction pipeline that integrates domain knowledge, statistical patterns, and behavioral filtering. Deployed in a production environment handling a peak throughput of over 2,000 messages per minute and 300,000 messages per day, TingIS achieves a P90 alert latency of 3.5 minutes and a 95\% discovery rate for high-priority incidents. Benchmarks constructed from real-world data demonstrate that TingIS significantly outperforms baseline methods in routing accuracy, clustering quality, and Signal-to-Noise Ratio.
PDF92April 25, 2026