TingIS: 기업 규모의 노이즈가 많은 고객 인시던트에서 실시간 위험 이벤트 발견
TingIS: Real-time Risk Event Discovery from Noisy Customer Incidents at Enterprise Scale
April 23, 2026
저자: Jun Wang, Ziyin Zhang, Rui Wang, Hang Yu, Peng Di, Rui Wang
cs.AI
초록
대규모 클라우드 네이티브 서비스에서는 단 몇 분의 가동 중단 시간도 막대한 재정적 손실과 사용자 신뢰 저하로 이어질 수 있으므로 기술적 이상 현상을 실시간으로 탐지하고 완화하는 것이 매우 중요합니다. 고객 인시던트는 모니터링에서 누락된 위험을 발견하는 중요한 신호 역할을 하지만, 다양한 비즈니스 라인의 극심한 노이즈, 높은 처리량, 의미론적 복잡성으로 인해 이 데이터에서 실행 가능한 인사이트를 추출하는 것은 여전히 어려운 과제입니다. 본 논문에서는 엔터프라이즈급 인시던트 발견을 위해 설계된 종단간(end-to-end) 시스템인 TingIS를 소개합니다. TingIS의 핵심은 효율적인 인덱싱 기술과 대규모 언어 모델(LLM)을 결합하여 이벤트 병합에 대한 정보에 기반한 결정을 내리고, 소수의 다양한 사용자 설명만으로도 실행 가능한 인시던트를 안정적으로 추출할 수 있는 다단계 이벤트 연결 엔진입니다. 이 엔진은 정확한 비즈니스 귀속을 위한 계단식 라우팅 메커니즘과 도메인 지식, 통계적 패턴, 행동 기반 필터링을 통합한 다차원 노이즈 감소 파이프라인으로 보완됩니다. 분당 최대 2,000건, 일일 30만 건의 메시지를 처리하는 프로덕션 환경에 배포된 TingIS는 P90 기준 3.5분의 알림 지연 시간과 중요도가 높은 인시던트에 대해 95%의 발견율을 달성했습니다. 실제 데이터로 구축된 벤치마크를 통해 TingIS가 라우팅 정확도, 클러스터링 품질, 신호 대 노이즈 비율 측면에서 기준 방법론을 크게 능가함을 입증합니다.
English
Real-time detection and mitigation of technical anomalies are critical for large-scale cloud-native services, where even minutes of downtime can result in massive financial losses and diminished user trust. While customer incidents serve as a vital signal for discovering risks missed by monitoring, extracting actionable intelligence from this data remains challenging due to extreme noise, high throughput, and semantic complexity of diverse business lines. In this paper, we present TingIS, an end-to-end system designed for enterprise-grade incident discovery. At the core of TingIS is a multi-stage event linking engine that synergizes efficient indexing techniques with Large Language Models (LLMs) to make informed decisions on event merging, enabling the stable extraction of actionable incidents from just a handful of diverse user descriptions. This engine is complemented by a cascaded routing mechanism for precise business attribution and a multi-dimensional noise reduction pipeline that integrates domain knowledge, statistical patterns, and behavioral filtering. Deployed in a production environment handling a peak throughput of over 2,000 messages per minute and 300,000 messages per day, TingIS achieves a P90 alert latency of 3.5 minutes and a 95\% discovery rate for high-priority incidents. Benchmarks constructed from real-world data demonstrate that TingIS significantly outperforms baseline methods in routing accuracy, clustering quality, and Signal-to-Noise Ratio.