SenTSR-Bench: Raciocínio com Conhecimento Injetado para Inferência em Séries Temporais

Resumo

O raciocínio diagnóstico de séries temporais é essencial para muitas aplicações, mas as soluções existentes enfrentam uma lacuna persistente: os modelos de linguagem grandes de raciocínio geral (GRLMs) possuem fortes capacidades de raciocínio, mas carecem do conhecimento específico do domínio para compreender padrões complexos de séries temporais. Por outro lado, os LLMs de séries temporais ajustados por fine-tuning (TSLMs) compreendem esses padrões, mas não têm a capacidade de generalizar o raciocínio para questões mais complexas. Para preencher essa lacuna, propomos uma estrutura híbrida de injeção de conhecimento que injeta insights gerados por TSLMs diretamente no traço de raciocínio do GRLM, alcançando assim um raciocínio robusto sobre séries temporais com conhecimento do domínio. Como a coleta de dados para fine-tuning de injeção de conhecimento é dispendiosa, utilizamos ainda uma abordagem baseada em aprendizagem por reforço com recompensas verificáveis (RLVR) para eliciar traços ricos em conhecimento sem supervisão humana, transferindo depois esse traço de pensamento do domínio para o GRLM para uma injeção de conhecimento eficiente. Lançamos também o SenTSR-Bench, um benchmark de raciocínio diagnóstico baseado em séries temporais multivariadas, recolhido a partir de operações industriais do mundo real. Tanto no SenTSR-Bench como noutros conjuntos de dados públicos, o nosso método supera consistentemente os TSLMs em 9,1%-26,1% e os GRLMs em 7,9%-22,4%, fornecendo insights diagnósticos de séries temporais robustos e contextualmente conscientes.

English

Time-series diagnostic reasoning is essential for many applications, yet existing solutions face a persistent gap: general reasoning large language models (GRLMs) possess strong reasoning skills but lack the domain-specific knowledge to understand complex time-series patterns. Conversely, fine-tuned time-series LLMs (TSLMs) understand these patterns but lack the capacity to generalize reasoning for more complicated questions. To bridge this gap, we propose a hybrid knowledge-injection framework that injects TSLM-generated insights directly into GRLM's reasoning trace, thereby achieving strong time-series reasoning with in-domain knowledge. As collecting data for knowledge injection fine-tuning is costly, we further leverage a reinforcement learning-based approach with verifiable rewards (RLVR) to elicit knowledge-rich traces without human supervision, then transfer such an in-domain thinking trace into GRLM for efficient knowledge injection. We further release SenTSR-Bench, a multivariate time-series-based diagnostic reasoning benchmark collected from real-world industrial operations. Across SenTSR-Bench and other public datasets, our method consistently surpasses TSLMs by 9.1%-26.1% and GRLMs by 7.9%-22.4%, delivering robust, context-aware time-series diagnostic insights.