LLaTiSA: от визуального восприятия к семантике с учетом стратификации сложности временных рядов

Аннотация

Всестороннее понимание временных рядов остается серьезной проблемой для больших языковых моделей (LLM). Современные исследования ограничены фрагментированными определениями задач и тестами с присущими им неоднозначностями, что препятствует строгой оценке и разработке унифицированных моделей для анализа временных рядов (TSRM). Чтобы преодолеть этот разрыв, мы формализуем анализ временных рядов (TSR) с помощью четырехуровневой таксономии, отражающей возрастающую когнитивную сложность. Мы представляем HiTSR — иерархический набор данных для анализа временных рядов, содержащий 83 тыс. примеров с разнообразными комбинациями задач и проверенными траекториями цепочек рассуждений (CoT). Используя HiTSR, мы предлагаем LLaTiSA — мощную модель TSRM, которая интегрирует визуализированные паттерны с таблицами численных данных, откалиброванными на точность, для улучшения временного восприятия визуально-языковых моделей (VLM). Благодаря многоэтапной стратегии тонкой настройки по учебному плану, LLaTiSA демонстрирует превосходную производительность и устойчивую способность к обобщению вне распределения данных для различных задач TSR и реальных сценариев. Наш код доступен по адресу https://github.com/RainingNovember/LLaTiSA.

English

Comprehensive understanding of time series remains a significant challenge for Large Language Models (LLMs). Current research is hindered by fragmented task definitions and benchmarks with inherent ambiguities, precluding rigorous evaluation and the development of unified Time Series Reasoning Models(TSRMs). To bridge this gap, we formalize Time Series Reasoning (TSR) via a four-level taxonomy of increasing cognitive complexity. We introduce HiTSR, a hierarchical time series reasoning dataset comprising 83k samples with diverse task combinations and verified Chain-of-Thought (CoT) trajectories. Leveraging HiTSR, we propose LLaTiSA, a strong TSRM that integrates visualized patterns with precision-calibrated numerical tables to enhance the temporal perception of Vision-Language Models (VLMs). Through a multi-stage curriculum fine-tuning strategy, LLaTiSA achieves superior performance and exhibits robust out-of-distribution generalization across diverse TSR tasks and real-world scenarios. Our code is available at https://github.com/RainingNovember/LLaTiSA.

LLaTiSA: от визуального восприятия к семантике с учетом стратификации сложности временных рядов

LLaTiSA: Towards Difficulty-Stratified Time Series Reasoning from Visual Perception to Semantics

Аннотация

Support