TingIS: Обнаружение рисковых событий в реальном времени из зашумленных инцидентов клиентов в масштабах предприятия

Аннотация

Оперативное обнаружение и устранение технических аномалий критически важны для крупномасштабных облачных сервисов, где даже несколько минут простоя могут привести к значительным финансовым потерям и подрыву доверия пользователей. Хотя инциденты, сообщаемые клиентами, служат важным сигналом для выявления рисков, упущенных системами мониторинга, извлечение полезной информации из этих данных остается сложной задачей из-за высокого уровня шума, большого объема и семантической сложности различных бизнес-направлений. В данной статье представлена TingIS — сквозная система для обнаружения инцидентов корпоративного уровня. Основой TingIS является многоуровневый механизм связывания событий, который сочетает эффективные методы индексации с большими языковыми моделями (LLM) для принятия обоснованных решений о объединении событий, обеспечивая стабильное извлечение значимых инцидентов из небольшого количества разнородных описаний пользователей. Этот механизм дополнен каскадной системой маршрутизации для точной атрибуции бизнес-направлений и многомерным конвейером снижения шума, интегрирующим предметные знания, статистические закономерности и поведенческую фильтрацию. Развернутая в промышленной среде с пиковой пропускной способностью свыше 2000 сообщений в минуту и 300 000 сообщений в день, TingIS демонстрирует 90-й процентиль задержки оповещений в 3,5 минуты и 95% уровень обнаружения высокоприоритетных инцидентов. Тесты на реальных данных показывают, что TingIS существенно превосходит базовые методы по точности маршрутизации, качеству кластеризации и отношению сигнал/шум.

English

Real-time detection and mitigation of technical anomalies are critical for large-scale cloud-native services, where even minutes of downtime can result in massive financial losses and diminished user trust. While customer incidents serve as a vital signal for discovering risks missed by monitoring, extracting actionable intelligence from this data remains challenging due to extreme noise, high throughput, and semantic complexity of diverse business lines. In this paper, we present TingIS, an end-to-end system designed for enterprise-grade incident discovery. At the core of TingIS is a multi-stage event linking engine that synergizes efficient indexing techniques with Large Language Models (LLMs) to make informed decisions on event merging, enabling the stable extraction of actionable incidents from just a handful of diverse user descriptions. This engine is complemented by a cascaded routing mechanism for precise business attribution and a multi-dimensional noise reduction pipeline that integrates domain knowledge, statistical patterns, and behavioral filtering. Deployed in a production environment handling a peak throughput of over 2,000 messages per minute and 300,000 messages per day, TingIS achieves a P90 alert latency of 3.5 minutes and a 95\% discovery rate for high-priority incidents. Benchmarks constructed from real-world data demonstrate that TingIS significantly outperforms baseline methods in routing accuracy, clustering quality, and Signal-to-Noise Ratio.

TingIS: Обнаружение рисковых событий в реальном времени из зашумленных инцидентов клиентов в масштабах предприятия

TingIS: Real-time Risk Event Discovery from Noisy Customer Incidents at Enterprise Scale

Аннотация

Support