ChatPaper.aiChatPaper

OpenTSLM: Modelos de Lenguaje para Series Temporales aplicados al Razonamiento sobre Datos Médicos Multivariados de Texto y Series Temporales

OpenTSLM: Time-Series Language Models for Reasoning over Multivariate Medical Text- and Time-Series Data

October 2, 2025
Autores: Patrick Langer, Thomas Kaar, Max Rosenblattl, Maxwell A. Xu, Winnie Chow, Martin Maritsch, Aradhana Verma, Brian Han, Daniel Seung Kim, Henry Chubb, Scott Ceresnak, Aydin Zahedivash, Alexander Tarlochan Singh Sandhu, Fatima Rodriguez, Daniel McDuff, Elgar Fleisch, Oliver Aalami, Filipe Barata, Paul Schmiedmayer
cs.AI

Resumen

Los LLM han surgido como herramientas poderosas para interpretar datos multimodales. En medicina, ofrecen un potencial particular para sintetizar grandes volúmenes de información clínica en insights accionables y aplicaciones de salud digital. Sin embargo, una limitación importante sigue siendo su incapacidad para manejar series temporales. Para superar esta brecha, presentamos OpenTSLM, una familia de Modelos de Lenguaje para Series Temporales (TSLM) creados al integrar series temporales como una modalidad nativa en LLM preentrenados, permitiendo el razonamiento sobre múltiples series temporales de cualquier longitud. Investigamos dos arquitecturas para OpenTSLM. La primera, OpenTSLM-SoftPrompt, modela series temporales de manera implícita concatenando tokens de series temporales aprendibles con tokens de texto mediante soft prompting. Aunque eficiente en parámetros, planteamos la hipótesis de que el modelado explícito de series temporales escala mejor y supera a los enfoques implícitos. Por ello, introducimos OpenTSLM-Flamingo, que integra series temporales con texto mediante atención cruzada. Evaluamos ambas variantes frente a líneas base que tratan series temporales como tokens de texto o gráficos, en un conjunto de tareas de razonamiento de Cadena de Pensamiento (CoT) texto-series temporales. Introducimos tres conjuntos de datos: HAR-CoT, Sleep-CoT y ECG-QA-CoT. En todos ellos, los modelos OpenTSLM superan a las líneas base, alcanzando 69.9 F1 en estadificación del sueño y 65.4 en HAR, en comparación con 9.05 y 52.2 para modelos de solo texto ajustados. Notablemente, incluso los modelos OpenTSLM de 1B parámetros superan a GPT-4o (15.47 y 2.95). OpenTSLM-Flamingo iguala el rendimiento de OpenTSLM-SoftPrompt y supera en secuencias más largas, manteniendo requisitos de memoria estables. En contraste, SoftPrompt crece exponencialmente en memoria con la longitud de la secuencia, requiriendo alrededor de 110 GB en comparación con 40 GB de VRAM al entrenar en ECG-QA con LLaMA-3B. Revisiones expertas por parte de clínicos encuentran fuertes capacidades de razonamiento exhibidas por OpenTSLM en ECG-QA. Para facilitar más investigación, proporcionamos todo el código, conjuntos de datos y modelos en código abierto.
English
LLMs have emerged as powerful tools for interpreting multimodal data. In medicine, they hold particular promise for synthesizing large volumes of clinical information into actionable insights and digital health applications. Yet, a major limitation remains their inability to handle time series. To overcome this gap, we present OpenTSLM, a family of Time Series Language Models (TSLMs) created by integrating time series as a native modality to pretrained LLMs, enabling reasoning over multiple time series of any length. We investigate two architectures for OpenTSLM. The first, OpenTSLM-SoftPrompt, models time series implicitly by concatenating learnable time series tokens with text tokens via soft prompting. Although parameter-efficient, we hypothesize that explicit time series modeling scales better and outperforms implicit approaches. We thus introduce OpenTSLM-Flamingo, which integrates time series with text via cross-attention. We benchmark both variants against baselines that treat time series as text tokens or plots, across a suite of text-time-series Chain-of-Thought (CoT) reasoning tasks. We introduce three datasets: HAR-CoT, Sleep-CoT, and ECG-QA-CoT. Across all, OpenTSLM models outperform baselines, reaching 69.9 F1 in sleep staging and 65.4 in HAR, compared to 9.05 and 52.2 for finetuned text-only models. Notably, even 1B-parameter OpenTSLM models surpass GPT-4o (15.47 and 2.95). OpenTSLM-Flamingo matches OpenTSLM-SoftPrompt in performance and outperforms on longer sequences, while maintaining stable memory requirements. By contrast, SoftPrompt grows exponentially in memory with sequence length, requiring around 110 GB compared to 40 GB VRAM when training on ECG-QA with LLaMA-3B. Expert reviews by clinicians find strong reasoning capabilities exhibited by OpenTSLMs on ECG-QA. To facilitate further research, we provide all code, datasets, and models open-source.
PDF122October 6, 2025