LLaTiSA : Vers un raisonnement temporel stratifié par difficulté, de la perception visuelle à la sémantique

Résumé

Une compréhension exhaustive des séries temporelles demeure un défi majeur pour les Grands Modèles de Langage (LLMs). La recherche actuelle est entravée par des définitions de tâches fragmentées et des benchmarks présentant des ambiguïtés inhérentes, empêchant une évaluation rigoureuse et le développement de Modèles de Raisonnement sur les Séries Temporelles (TSRMs) unifiés. Pour combler cette lacune, nous formalisons le Raisonnement sur les Séries Temporelles (TSR) via une taxonomie à quatre niveaux de complexité cognitive croissante. Nous présentons HiTSR, un jeu de données hiérarchique pour le raisonnement sur séries temporelles comprenant 83 000 échantillons avec diverses combinaisons de tâches et des trajectoires de Raisonnement en Chaîne (CoT) vérifiées. En exploitant HiTSR, nous proposons LLaTiSA, un TSRM performant qui intègre des motifs visualisés avec des tableaux numériques à calibration de précision pour améliorer la perception temporelle des Modèles Vision-Langage (VLMs). Grâce à une stratégie de fine-tuning curriculaire multi-étapes, LLaTiSA obtient des performances supérieures et démontre une robuste généralisation hors-distribution à travers diverses tâches de TSR et des scénarios réels. Notre code est disponible à l'adresse https://github.com/RainingNovember/LLaTiSA.

English

Comprehensive understanding of time series remains a significant challenge for Large Language Models (LLMs). Current research is hindered by fragmented task definitions and benchmarks with inherent ambiguities, precluding rigorous evaluation and the development of unified Time Series Reasoning Models(TSRMs). To bridge this gap, we formalize Time Series Reasoning (TSR) via a four-level taxonomy of increasing cognitive complexity. We introduce HiTSR, a hierarchical time series reasoning dataset comprising 83k samples with diverse task combinations and verified Chain-of-Thought (CoT) trajectories. Leveraging HiTSR, we propose LLaTiSA, a strong TSRM that integrates visualized patterns with precision-calibrated numerical tables to enhance the temporal perception of Vision-Language Models (VLMs). Through a multi-stage curriculum fine-tuning strategy, LLaTiSA achieves superior performance and exhibits robust out-of-distribution generalization across diverse TSR tasks and real-world scenarios. Our code is available at https://github.com/RainingNovember/LLaTiSA.

LLaTiSA : Vers un raisonnement temporel stratifié par difficulté, de la perception visuelle à la sémantique

LLaTiSA: Towards Difficulty-Stratified Time Series Reasoning from Visual Perception to Semantics

Résumé

Support