TingIS: エンタープライズ規模のノイズを含む顧客インシデントからのリアルタイムリスクイベント発見
TingIS: Real-time Risk Event Discovery from Noisy Customer Incidents at Enterprise Scale
April 23, 2026
著者: Jun Wang, Ziyin Zhang, Rui Wang, Hang Yu, Peng Di, Rui Wang
cs.AI
要旨
大規模なクラウドネイティブサービスにおいて、技術的異常のリアルタイム検出と対応は極めて重要です。数分間のダウンタイムであっても、莫大な経済的損失やユーザー信頼の低下を招く可能性があるためです。顧客インシデントは監視で見逃されたリスクを発見する重要なシグナルとなりますが、このデータから実用的な知見を抽出することは、極度のノイズ、高スループット、多様なビジネスラインの意味的複雑さにより困難な課題となっています。本論文では、エンタープライズレベルのインシデント発見のために設計されたエンドツーエンドシステム「TingIS」を提案します。TingISの核心は、効率的な索引技術と大規模言語モデル(LLM)を連携させた多段階イベントリンクエンジンであり、イベント統合に関する適切な判断を行い、多様なユーザー記述から安定して実用的なインシデントを抽出します。このエンジンは、精密なビジネス属性付けのための段階的ルーティング機構と、ドメイン知識、統計的パターン、行動フィルタリングを統合した多次元ノイズ低減パイプラインによって補完されています。ピーク時で毎分2,000件、1日30万件のメッセージを処理する本番環境に導入されたTingISは、P90アラート遅延3.5分、高優先度インシデントの発見率95%を達成しています。実データから構築されたベンチマークでは、TingISがルーティング精度、クラスタリング品質、信号対雑音比においてベースライン手法を大幅に上回ることを実証しています。
English
Real-time detection and mitigation of technical anomalies are critical for large-scale cloud-native services, where even minutes of downtime can result in massive financial losses and diminished user trust. While customer incidents serve as a vital signal for discovering risks missed by monitoring, extracting actionable intelligence from this data remains challenging due to extreme noise, high throughput, and semantic complexity of diverse business lines. In this paper, we present TingIS, an end-to-end system designed for enterprise-grade incident discovery. At the core of TingIS is a multi-stage event linking engine that synergizes efficient indexing techniques with Large Language Models (LLMs) to make informed decisions on event merging, enabling the stable extraction of actionable incidents from just a handful of diverse user descriptions. This engine is complemented by a cascaded routing mechanism for precise business attribution and a multi-dimensional noise reduction pipeline that integrates domain knowledge, statistical patterns, and behavioral filtering. Deployed in a production environment handling a peak throughput of over 2,000 messages per minute and 300,000 messages per day, TingIS achieves a P90 alert latency of 3.5 minutes and a 95\% discovery rate for high-priority incidents. Benchmarks constructed from real-world data demonstrate that TingIS significantly outperforms baseline methods in routing accuracy, clustering quality, and Signal-to-Noise Ratio.