OpenTSLM: Модели временных рядов на основе языка для анализа многомерных медицинских текстовых данных и данных временных рядов
OpenTSLM: Time-Series Language Models for Reasoning over Multivariate Medical Text- and Time-Series Data
October 2, 2025
Авторы: Patrick Langer, Thomas Kaar, Max Rosenblattl, Maxwell A. Xu, Winnie Chow, Martin Maritsch, Aradhana Verma, Brian Han, Daniel Seung Kim, Henry Chubb, Scott Ceresnak, Aydin Zahedivash, Alexander Tarlochan Singh Sandhu, Fatima Rodriguez, Daniel McDuff, Elgar Fleisch, Oliver Aalami, Filipe Barata, Paul Schmiedmayer
cs.AI
Аннотация
LLM (Large Language Models) стали мощными инструментами для интерпретации мультимодальных данных. В медицине они особенно перспективны для синтеза больших объемов клинической информации в полезные выводы и приложения цифрового здравоохранения. Однако их ключевым ограничением остается неспособность работать с временными рядами. Чтобы преодолеть этот пробел, мы представляем OpenTSLM — семейство моделей временных рядов (Time Series Language Models, TSLMs), созданных путем интеграции временных рядов как нативной модальности в предобученные LLM, что позволяет анализировать множественные временные ряды любой длины. Мы исследуем две архитектуры OpenTSLM. Первая, OpenTSLM-SoftPrompt, моделирует временные ряды неявно, объединяя обучаемые токены временных рядов с текстовыми токенами через мягкие подсказки. Хотя этот подход эффективен по параметрам, мы предполагаем, что явное моделирование временных рядов масштабируется лучше и превосходит неявные методы. Поэтому мы представляем OpenTSLM-Flamingo, который интегрирует временные ряды с текстом через кросс-внимание. Мы сравниваем обе версии с базовыми подходами, которые обрабатывают временные ряды как текстовые токены или графики, на наборе задач цепочки рассуждений (Chain-of-Thought, CoT) для текста и временных рядов. Мы вводим три набора данных: HAR-CoT, Sleep-CoT и ECG-QA-CoT. Во всех случаях модели OpenTSLM превосходят базовые подходы, достигая 69,9 F1 в классификации стадий сна и 65,4 в HAR, по сравнению с 9,05 и 52,2 для моделей, обученных только на тексте. Примечательно, что даже модели OpenTSLM с 1 миллиардом параметров превосходят GPT-4o (15,47 и 2,95). OpenTSLM-Flamingo соответствует OpenTSLM-SoftPrompt по производительности и превосходит его на более длинных последовательностях, сохраняя стабильные требования к памяти. В отличие от этого, SoftPrompt требует экспоненциально больше памяти с увеличением длины последовательности, достигая около 110 ГБ по сравнению с 40 ГБ видеопамяти при обучении на ECG-QA с LLaMA-3B. Экспертные оценки клиницистов подтверждают сильные аналитические способности OpenTSLM на данных ECG-QA. Для содействия дальнейшим исследованиям мы предоставляем все коды, наборы данных и модели в открытом доступе.
English
LLMs have emerged as powerful tools for interpreting multimodal data. In
medicine, they hold particular promise for synthesizing large volumes of
clinical information into actionable insights and digital health applications.
Yet, a major limitation remains their inability to handle time series. To
overcome this gap, we present OpenTSLM, a family of Time Series Language Models
(TSLMs) created by integrating time series as a native modality to pretrained
LLMs, enabling reasoning over multiple time series of any length. We
investigate two architectures for OpenTSLM. The first, OpenTSLM-SoftPrompt,
models time series implicitly by concatenating learnable time series tokens
with text tokens via soft prompting. Although parameter-efficient, we
hypothesize that explicit time series modeling scales better and outperforms
implicit approaches. We thus introduce OpenTSLM-Flamingo, which integrates time
series with text via cross-attention. We benchmark both variants against
baselines that treat time series as text tokens or plots, across a suite of
text-time-series Chain-of-Thought (CoT) reasoning tasks. We introduce three
datasets: HAR-CoT, Sleep-CoT, and ECG-QA-CoT. Across all, OpenTSLM models
outperform baselines, reaching 69.9 F1 in sleep staging and 65.4 in HAR,
compared to 9.05 and 52.2 for finetuned text-only models. Notably, even
1B-parameter OpenTSLM models surpass GPT-4o (15.47 and 2.95). OpenTSLM-Flamingo
matches OpenTSLM-SoftPrompt in performance and outperforms on longer sequences,
while maintaining stable memory requirements. By contrast, SoftPrompt grows
exponentially in memory with sequence length, requiring around 110 GB compared
to 40 GB VRAM when training on ECG-QA with LLaMA-3B. Expert reviews by
clinicians find strong reasoning capabilities exhibited by OpenTSLMs on ECG-QA.
To facilitate further research, we provide all code, datasets, and models
open-source.