OpenTSLM: Modelos de Linguagem para Séries Temporais aplicados ao Raciocínio sobre Dados Multivariados de Texto e Séries Temporais Médicas
OpenTSLM: Time-Series Language Models for Reasoning over Multivariate Medical Text- and Time-Series Data
October 2, 2025
Autores: Patrick Langer, Thomas Kaar, Max Rosenblattl, Maxwell A. Xu, Winnie Chow, Martin Maritsch, Aradhana Verma, Brian Han, Daniel Seung Kim, Henry Chubb, Scott Ceresnak, Aydin Zahedivash, Alexander Tarlochan Singh Sandhu, Fatima Rodriguez, Daniel McDuff, Elgar Fleisch, Oliver Aalami, Filipe Barata, Paul Schmiedmayer
cs.AI
Resumo
Os LLMs emergiram como ferramentas poderosas para interpretar dados multimodais. Na medicina, eles têm um potencial particular para sintetizar grandes volumes de informações clínicas em insights acionáveis e aplicações de saúde digital. No entanto, uma grande limitação permanece: sua incapacidade de lidar com séries temporais. Para superar essa lacuna, apresentamos o OpenTSLM, uma família de Modelos de Linguagem para Séries Temporais (TSLMs) criada ao integrar séries temporais como uma modalidade nativa em LLMs pré-treinados, permitindo o raciocínio sobre múltiplas séries temporais de qualquer comprimento. Investigamos duas arquiteturas para o OpenTSLM. A primeira, OpenTSLM-SoftPrompt, modela séries temporais implicitamente ao concatenar tokens de séries temporais aprendíveis com tokens de texto por meio de soft prompting. Embora seja eficiente em termos de parâmetros, nossa hipótese é que a modelagem explícita de séries temporais escala melhor e supera abordagens implícitas. Assim, introduzimos o OpenTSLM-Flamingo, que integra séries temporais com texto por meio de cross-attention. Avaliamos ambas as variantes em relação a baselines que tratam séries temporais como tokens de texto ou gráficos, em uma série de tarefas de raciocínio Chain-of-Thought (CoT) envolvendo texto e séries temporais. Introduzimos três conjuntos de dados: HAR-CoT, Sleep-CoT e ECG-QA-CoT. Em todos eles, os modelos OpenTSLM superam as baselines, atingindo 69,9 F1 na classificação de estágios do sono e 65,4 no HAR, em comparação com 9,05 e 52,2 para modelos de texto finetunados. Notavelmente, até mesmo modelos OpenTSLM com 1 bilhão de parâmetros superam o GPT-4o (15,47 e 2,95). O OpenTSLM-Flamingo iguala o desempenho do OpenTSLM-SoftPrompt e supera em sequências mais longas, mantendo requisitos de memória estáveis. Em contraste, o SoftPrompt cresce exponencialmente em memória com o comprimento da sequência, exigindo cerca de 110 GB em comparação com 40 GB de VRAM ao treinar no ECG-QA com LLaMA-3B. Avaliações de especialistas por clínicos revelam fortes capacidades de raciocínio exibidas pelos OpenTSLMs no ECG-QA. Para facilitar pesquisas futuras, disponibilizamos todo o código, conjuntos de dados e modelos em código aberto.
English
LLMs have emerged as powerful tools for interpreting multimodal data. In
medicine, they hold particular promise for synthesizing large volumes of
clinical information into actionable insights and digital health applications.
Yet, a major limitation remains their inability to handle time series. To
overcome this gap, we present OpenTSLM, a family of Time Series Language Models
(TSLMs) created by integrating time series as a native modality to pretrained
LLMs, enabling reasoning over multiple time series of any length. We
investigate two architectures for OpenTSLM. The first, OpenTSLM-SoftPrompt,
models time series implicitly by concatenating learnable time series tokens
with text tokens via soft prompting. Although parameter-efficient, we
hypothesize that explicit time series modeling scales better and outperforms
implicit approaches. We thus introduce OpenTSLM-Flamingo, which integrates time
series with text via cross-attention. We benchmark both variants against
baselines that treat time series as text tokens or plots, across a suite of
text-time-series Chain-of-Thought (CoT) reasoning tasks. We introduce three
datasets: HAR-CoT, Sleep-CoT, and ECG-QA-CoT. Across all, OpenTSLM models
outperform baselines, reaching 69.9 F1 in sleep staging and 65.4 in HAR,
compared to 9.05 and 52.2 for finetuned text-only models. Notably, even
1B-parameter OpenTSLM models surpass GPT-4o (15.47 and 2.95). OpenTSLM-Flamingo
matches OpenTSLM-SoftPrompt in performance and outperforms on longer sequences,
while maintaining stable memory requirements. By contrast, SoftPrompt grows
exponentially in memory with sequence length, requiring around 110 GB compared
to 40 GB VRAM when training on ECG-QA with LLaMA-3B. Expert reviews by
clinicians find strong reasoning capabilities exhibited by OpenTSLMs on ECG-QA.
To facilitate further research, we provide all code, datasets, and models
open-source.