LLaTiSA: Hacia un Razonamiento de Series Temporales Estratificado por Dificultad desde la Percepción Visual a la Semántica

Resumen

La comprensión integral de series temporales sigue siendo un desafío significativo para los Modelos de Lenguaje a Gran Escala (LLM). La investigación actual se ve obstaculizada por definiciones de tareas fragmentadas y puntos de referencia con ambigüedades inherentes, lo que impide una evaluación rigurosa y el desarrollo de Modelos de Razonamiento de Series Temporales (TSRM) unificados. Para cerrar esta brecha, formalizamos el Razonamiento de Series Temporales (TSR) mediante una taxonomía de cuatro niveles de complejidad cognitiva creciente. Presentamos HiTSR, un conjunto de datos de razonamiento de series temporales jerárquico que comprende 83k muestras con diversas combinaciones de tareas y trayectorias verificadas de Cadena de Pensamiento (CoT). Aprovechando HiTSR, proponemos LLaTiSA, un TSRM robusto que integra patrones visualizados con tablas numéricas de precisión calibrada para mejorar la percepción temporal de los Modelos de Lenguaje Visual (VLM). Mediante una estrategia de ajuste fino curricular multi-etapa, LLaTiSA logra un rendimiento superior y exhibe una generalización robusta fuera de distribución en diversas tareas de TSR y escenarios del mundo real. Nuestro código está disponible en https://github.com/RainingNovember/LLaTiSA.

English

Comprehensive understanding of time series remains a significant challenge for Large Language Models (LLMs). Current research is hindered by fragmented task definitions and benchmarks with inherent ambiguities, precluding rigorous evaluation and the development of unified Time Series Reasoning Models(TSRMs). To bridge this gap, we formalize Time Series Reasoning (TSR) via a four-level taxonomy of increasing cognitive complexity. We introduce HiTSR, a hierarchical time series reasoning dataset comprising 83k samples with diverse task combinations and verified Chain-of-Thought (CoT) trajectories. Leveraging HiTSR, we propose LLaTiSA, a strong TSRM that integrates visualized patterns with precision-calibrated numerical tables to enhance the temporal perception of Vision-Language Models (VLMs). Through a multi-stage curriculum fine-tuning strategy, LLaTiSA achieves superior performance and exhibits robust out-of-distribution generalization across diverse TSR tasks and real-world scenarios. Our code is available at https://github.com/RainingNovember/LLaTiSA.

LLaTiSA: Hacia un Razonamiento de Series Temporales Estratificado por Dificultad desde la Percepción Visual a la Semántica

LLaTiSA: Towards Difficulty-Stratified Time Series Reasoning from Visual Perception to Semantics

Resumen

Support