ChatPaper.aiChatPaper

SenTSR-Bench: 주입된 지식을 활용한 시계열 추론

SenTSR-Bench: Thinking with Injected Knowledge for Time-Series Reasoning

February 23, 2026
저자: Zelin He, Boran Han, Xiyuan Zhang, Shuai Zhang, Haotian Lin, Qi Zhu, Haoyang Fang, Danielle C. Maddix, Abdul Fatir Ansari, Akash Chandrayan, Abhinav Pradhan, Bernie Wang, Matthew Reimherr
cs.AI

초록

시계열 진단 추론은 많은 응용 분야에서 필수적이지만, 기존 솔루션은 지속적인 격차에 직면해 있습니다: 일반 추론 대형 언어 모델(GRLM)은 강력한 추론 능력을 갖추고 있지만 복잡한 시계열 패턴을 이해할 수 있는 도메인 특화 지식이 부족합니다. 반면, 미세 조정된 시계열 LLM(TSLM)은 이러한 패턴을 이해하지만 더 복잡한 질문에 대한 일반화된 추론 능력이 부족합니다. 이러한 격차를 해소하기 위해 우리는 TSLM에서 생성된 통찰력을 GRLM의 추론 흔적에 직접 주입하여 도메인 내 지식을 갖춘 강력한 시계열 추론을 달성하는 하이브리드 지식 주입 프레임워크를 제안합니다. 지식 주입 미세 조정을 위한 데이터 수집은 비용이 많이 들기 때문에, 우리는 검증 가능한 보상을 갖춘 강화 학습 기반 접근법(RLVR)을 추가로 활용하여 인간의 감독 없이도 지식이 풍부한 추적 흔적을 도출하고, 이러한 도메인 내 사고 흔적을 GRLM으로 이전하여 효율적인 지식 주입을 수행합니다. 또한 실제 산업 운영 현장에서 수집된 다변량 시계열 기반 진단 추론 벤치마크인 SenTSR-Bench를 공개합니다. SenTSR-Bench와 다른 공개 데이터셋 전반에 걸쳐 우리의 방법은 TSLM 대비 9.1%~26.1%, GRLM 대비 7.9%~22.4% 일관되게 우수한 성능을 보이며, 견고하고 상황 인식적인 시계열 진단 통찰력을 제공합니다.
English
Time-series diagnostic reasoning is essential for many applications, yet existing solutions face a persistent gap: general reasoning large language models (GRLMs) possess strong reasoning skills but lack the domain-specific knowledge to understand complex time-series patterns. Conversely, fine-tuned time-series LLMs (TSLMs) understand these patterns but lack the capacity to generalize reasoning for more complicated questions. To bridge this gap, we propose a hybrid knowledge-injection framework that injects TSLM-generated insights directly into GRLM's reasoning trace, thereby achieving strong time-series reasoning with in-domain knowledge. As collecting data for knowledge injection fine-tuning is costly, we further leverage a reinforcement learning-based approach with verifiable rewards (RLVR) to elicit knowledge-rich traces without human supervision, then transfer such an in-domain thinking trace into GRLM for efficient knowledge injection. We further release SenTSR-Bench, a multivariate time-series-based diagnostic reasoning benchmark collected from real-world industrial operations. Across SenTSR-Bench and other public datasets, our method consistently surpasses TSLMs by 9.1%-26.1% and GRLMs by 7.9%-22.4%, delivering robust, context-aware time-series diagnostic insights.
PDF00February 25, 2026