OpenTSLM: Modelos de Lenguaje para Series Temporales aplicados al Razonamiento sobre Datos Médicos Multivariados de Texto y Series Temporales
OpenTSLM: Time-Series Language Models for Reasoning over Multivariate Medical Text- and Time-Series Data
October 2, 2025
Autores: Patrick Langer, Thomas Kaar, Max Rosenblattl, Maxwell A. Xu, Winnie Chow, Martin Maritsch, Aradhana Verma, Brian Han, Daniel Seung Kim, Henry Chubb, Scott Ceresnak, Aydin Zahedivash, Alexander Tarlochan Singh Sandhu, Fatima Rodriguez, Daniel McDuff, Elgar Fleisch, Oliver Aalami, Filipe Barata, Paul Schmiedmayer
cs.AI
Resumen
Los LLM han surgido como herramientas poderosas para interpretar datos multimodales. En medicina, ofrecen un potencial particular para sintetizar grandes volúmenes de información clínica en insights accionables y aplicaciones de salud digital. Sin embargo, una limitación importante sigue siendo su incapacidad para manejar series temporales. Para superar esta brecha, presentamos OpenTSLM, una familia de Modelos de Lenguaje para Series Temporales (TSLM) creados al integrar series temporales como una modalidad nativa en LLM preentrenados, permitiendo el razonamiento sobre múltiples series temporales de cualquier longitud. Investigamos dos arquitecturas para OpenTSLM. La primera, OpenTSLM-SoftPrompt, modela series temporales de manera implícita concatenando tokens de series temporales aprendibles con tokens de texto mediante soft prompting. Aunque eficiente en parámetros, planteamos la hipótesis de que el modelado explícito de series temporales escala mejor y supera a los enfoques implícitos. Por ello, introducimos OpenTSLM-Flamingo, que integra series temporales con texto mediante atención cruzada. Evaluamos ambas variantes frente a líneas base que tratan series temporales como tokens de texto o gráficos, en un conjunto de tareas de razonamiento de Cadena de Pensamiento (CoT) texto-series temporales. Introducimos tres conjuntos de datos: HAR-CoT, Sleep-CoT y ECG-QA-CoT. En todos ellos, los modelos OpenTSLM superan a las líneas base, alcanzando 69.9 F1 en estadificación del sueño y 65.4 en HAR, en comparación con 9.05 y 52.2 para modelos de solo texto ajustados. Notablemente, incluso los modelos OpenTSLM de 1B parámetros superan a GPT-4o (15.47 y 2.95). OpenTSLM-Flamingo iguala el rendimiento de OpenTSLM-SoftPrompt y supera en secuencias más largas, manteniendo requisitos de memoria estables. En contraste, SoftPrompt crece exponencialmente en memoria con la longitud de la secuencia, requiriendo alrededor de 110 GB en comparación con 40 GB de VRAM al entrenar en ECG-QA con LLaMA-3B. Revisiones expertas por parte de clínicos encuentran fuertes capacidades de razonamiento exhibidas por OpenTSLM en ECG-QA. Para facilitar más investigación, proporcionamos todo el código, conjuntos de datos y modelos en código abierto.
English
LLMs have emerged as powerful tools for interpreting multimodal data. In
medicine, they hold particular promise for synthesizing large volumes of
clinical information into actionable insights and digital health applications.
Yet, a major limitation remains their inability to handle time series. To
overcome this gap, we present OpenTSLM, a family of Time Series Language Models
(TSLMs) created by integrating time series as a native modality to pretrained
LLMs, enabling reasoning over multiple time series of any length. We
investigate two architectures for OpenTSLM. The first, OpenTSLM-SoftPrompt,
models time series implicitly by concatenating learnable time series tokens
with text tokens via soft prompting. Although parameter-efficient, we
hypothesize that explicit time series modeling scales better and outperforms
implicit approaches. We thus introduce OpenTSLM-Flamingo, which integrates time
series with text via cross-attention. We benchmark both variants against
baselines that treat time series as text tokens or plots, across a suite of
text-time-series Chain-of-Thought (CoT) reasoning tasks. We introduce three
datasets: HAR-CoT, Sleep-CoT, and ECG-QA-CoT. Across all, OpenTSLM models
outperform baselines, reaching 69.9 F1 in sleep staging and 65.4 in HAR,
compared to 9.05 and 52.2 for finetuned text-only models. Notably, even
1B-parameter OpenTSLM models surpass GPT-4o (15.47 and 2.95). OpenTSLM-Flamingo
matches OpenTSLM-SoftPrompt in performance and outperforms on longer sequences,
while maintaining stable memory requirements. By contrast, SoftPrompt grows
exponentially in memory with sequence length, requiring around 110 GB compared
to 40 GB VRAM when training on ECG-QA with LLaMA-3B. Expert reviews by
clinicians find strong reasoning capabilities exhibited by OpenTSLMs on ECG-QA.
To facilitate further research, we provide all code, datasets, and models
open-source.