ChatPaper.aiChatPaper

OpenTSLM: Tijdreeks Taalmodellen voor Redeneren over Multivariate Medische Tekst- en Tijdreeksgegevens

OpenTSLM: Time-Series Language Models for Reasoning over Multivariate Medical Text- and Time-Series Data

October 2, 2025
Auteurs: Patrick Langer, Thomas Kaar, Max Rosenblattl, Maxwell A. Xu, Winnie Chow, Martin Maritsch, Aradhana Verma, Brian Han, Daniel Seung Kim, Henry Chubb, Scott Ceresnak, Aydin Zahedivash, Alexander Tarlochan Singh Sandhu, Fatima Rodriguez, Daniel McDuff, Elgar Fleisch, Oliver Aalami, Filipe Barata, Paul Schmiedmayer
cs.AI

Samenvatting

LLMs zijn krachtige tools geworden voor het interpreteren van multimodale data. In de geneeskunde bieden ze bijzondere mogelijkheden voor het synthetiseren van grote hoeveelheden klinische informatie in bruikbare inzichten en digitale gezondheidstoepassingen. Een belangrijke beperking blijft echter hun onvermogen om tijdreeksen te verwerken. Om deze kloof te overbruggen, presenteren we OpenTSLM, een familie van Time Series Language Models (TSLMs) die zijn ontwikkeld door tijdreeksen als een native modaliteit te integreren in vooraf getrainde LLMs, waardoor redeneren over meerdere tijdreeksen van elke lengte mogelijk wordt. We onderzoeken twee architecturen voor OpenTSLM. De eerste, OpenTSLM-SoftPrompt, modelleert tijdreeksen impliciet door leerbare tijdreeks-tokens te concateneren met tekst-tokens via soft prompting. Hoewel parameter-efficiënt, veronderstellen we dat expliciete tijdreeksmodellering beter schaalt en beter presteert dan impliciete benaderingen. Daarom introduceren we OpenTSLM-Flamingo, dat tijdreeksen integreert met tekst via cross-attention. We vergelijken beide varianten met baseline-modellen die tijdreeksen behandelen als tekst-tokens of plots, over een reeks tekst-tijdreeks Chain-of-Thought (CoT) redeneertaken. We introduceren drie datasets: HAR-CoT, Sleep-CoT en ECG-QA-CoT. Over de hele linie presteren OpenTSLM-modellen beter dan de baseline-modellen, met een F1-score van 69,9 in slaapstadia en 65,4 in HAR, vergeleken met 9,05 en 52,2 voor fijn afgestemde tekstmodellen. Opmerkelijk is dat zelfs 1B-parameter OpenTSLM-modellen GPT-4o overtreffen (15,47 en 2,95). OpenTSLM-Flamingo evenaart OpenTSLM-SoftPrompt in prestaties en presteert beter op langere sequenties, terwijl het stabiele geheugeneisen behoudt. Daarentegen groeit SoftPrompt exponentieel in geheugen met sequentielengte, wat ongeveer 110 GB vereist in vergelijking met 40 GB VRAM bij het trainen op ECG-QA met LLaMA-3B. Expertbeoordelingen door clinici tonen sterke redeneervaardigheden van OpenTSLMs op ECG-QA. Om verder onderzoek te faciliteren, bieden we alle code, datasets en modellen open-source aan.
English
LLMs have emerged as powerful tools for interpreting multimodal data. In medicine, they hold particular promise for synthesizing large volumes of clinical information into actionable insights and digital health applications. Yet, a major limitation remains their inability to handle time series. To overcome this gap, we present OpenTSLM, a family of Time Series Language Models (TSLMs) created by integrating time series as a native modality to pretrained LLMs, enabling reasoning over multiple time series of any length. We investigate two architectures for OpenTSLM. The first, OpenTSLM-SoftPrompt, models time series implicitly by concatenating learnable time series tokens with text tokens via soft prompting. Although parameter-efficient, we hypothesize that explicit time series modeling scales better and outperforms implicit approaches. We thus introduce OpenTSLM-Flamingo, which integrates time series with text via cross-attention. We benchmark both variants against baselines that treat time series as text tokens or plots, across a suite of text-time-series Chain-of-Thought (CoT) reasoning tasks. We introduce three datasets: HAR-CoT, Sleep-CoT, and ECG-QA-CoT. Across all, OpenTSLM models outperform baselines, reaching 69.9 F1 in sleep staging and 65.4 in HAR, compared to 9.05 and 52.2 for finetuned text-only models. Notably, even 1B-parameter OpenTSLM models surpass GPT-4o (15.47 and 2.95). OpenTSLM-Flamingo matches OpenTSLM-SoftPrompt in performance and outperforms on longer sequences, while maintaining stable memory requirements. By contrast, SoftPrompt grows exponentially in memory with sequence length, requiring around 110 GB compared to 40 GB VRAM when training on ECG-QA with LLaMA-3B. Expert reviews by clinicians find strong reasoning capabilities exhibited by OpenTSLMs on ECG-QA. To facilitate further research, we provide all code, datasets, and models open-source.
PDF172October 6, 2025