OpenTSLM : Modèles de langage pour séries temporelles appliqués au raisonnement sur des données médicales multivariées textuelles et temporelles
OpenTSLM: Time-Series Language Models for Reasoning over Multivariate Medical Text- and Time-Series Data
October 2, 2025
papers.authors: Patrick Langer, Thomas Kaar, Max Rosenblattl, Maxwell A. Xu, Winnie Chow, Martin Maritsch, Aradhana Verma, Brian Han, Daniel Seung Kim, Henry Chubb, Scott Ceresnak, Aydin Zahedivash, Alexander Tarlochan Singh Sandhu, Fatima Rodriguez, Daniel McDuff, Elgar Fleisch, Oliver Aalami, Filipe Barata, Paul Schmiedmayer
cs.AI
papers.abstract
Les LLM (Modèles de Langage de Grande Taille) se sont imposés comme des outils puissants pour interpréter des données multimodales. En médecine, ils offrent un potentiel particulier pour synthétiser de grands volumes d'informations cliniques en insights exploitables et en applications de santé numérique. Cependant, une limitation majeure réside dans leur incapacité à traiter des séries temporelles. Pour combler cette lacune, nous présentons OpenTSLM, une famille de Modèles de Langage pour Séries Temporelles (TSLM) créés en intégrant les séries temporelles comme une modalité native aux LLM pré-entraînés, permettant ainsi un raisonnement sur plusieurs séries temporelles de n'importe quelle longueur. Nous explorons deux architectures pour OpenTSLM. La première, OpenTSLM-SoftPrompt, modélise implicitement les séries temporelles en concaténant des tokens de séries temporelles apprenables avec des tokens de texte via un soft prompting. Bien que paramétriquement efficace, nous émettons l'hypothèse qu'une modélisation explicite des séries temporelles s'adapte mieux et surpasse les approches implicites. Nous introduisons donc OpenTSLM-Flamingo, qui intègre les séries temporelles avec le texte via une attention croisée. Nous comparons les deux variantes à des modèles de référence qui traitent les séries temporelles comme des tokens de texte ou des graphiques, à travers une série de tâches de raisonnement en chaîne de pensée (CoT) texte-séries temporelles. Nous présentons trois jeux de données : HAR-CoT, Sleep-CoT et ECG-QA-CoT. Sur tous ces jeux, les modèles OpenTSLM surpassent les références, atteignant 69,9 F1 dans la classification des stades de sommeil et 65,4 dans HAR, contre 9,05 et 52,2 pour les modèles textuels uniquement finetunés. Notamment, même les modèles OpenTSLM à 1 milliard de paramètres surpassent GPT-4o (15,47 et 2,95). OpenTSLM-Flamingo égalise OpenTSLM-SoftPrompt en performance et surpasse sur les séquences plus longues, tout en maintenant des exigences de mémoire stables. En revanche, SoftPrompt croît exponentiellement en mémoire avec la longueur de la séquence, nécessitant environ 110 Go contre 40 Go de VRAM lors de l'entraînement sur ECG-QA avec LLaMA-3B. Les évaluations d'experts par des cliniciens révèlent de solides capacités de raisonnement démontrées par OpenTSLM sur ECG-QA. Pour faciliter des recherches ultérieures, nous mettons à disposition tout le code, les jeux de données et les modèles en open source.
English
LLMs have emerged as powerful tools for interpreting multimodal data. In
medicine, they hold particular promise for synthesizing large volumes of
clinical information into actionable insights and digital health applications.
Yet, a major limitation remains their inability to handle time series. To
overcome this gap, we present OpenTSLM, a family of Time Series Language Models
(TSLMs) created by integrating time series as a native modality to pretrained
LLMs, enabling reasoning over multiple time series of any length. We
investigate two architectures for OpenTSLM. The first, OpenTSLM-SoftPrompt,
models time series implicitly by concatenating learnable time series tokens
with text tokens via soft prompting. Although parameter-efficient, we
hypothesize that explicit time series modeling scales better and outperforms
implicit approaches. We thus introduce OpenTSLM-Flamingo, which integrates time
series with text via cross-attention. We benchmark both variants against
baselines that treat time series as text tokens or plots, across a suite of
text-time-series Chain-of-Thought (CoT) reasoning tasks. We introduce three
datasets: HAR-CoT, Sleep-CoT, and ECG-QA-CoT. Across all, OpenTSLM models
outperform baselines, reaching 69.9 F1 in sleep staging and 65.4 in HAR,
compared to 9.05 and 52.2 for finetuned text-only models. Notably, even
1B-parameter OpenTSLM models surpass GPT-4o (15.47 and 2.95). OpenTSLM-Flamingo
matches OpenTSLM-SoftPrompt in performance and outperforms on longer sequences,
while maintaining stable memory requirements. By contrast, SoftPrompt grows
exponentially in memory with sequence length, requiring around 110 GB compared
to 40 GB VRAM when training on ECG-QA with LLaMA-3B. Expert reviews by
clinicians find strong reasoning capabilities exhibited by OpenTSLMs on ECG-QA.
To facilitate further research, we provide all code, datasets, and models
open-source.