ChatPaper.aiChatPaper

OpenTSLM: Zeitreihen-Sprachmodelle zur Inferenz über multivariate medizinische Text- und Zeitreihendaten

OpenTSLM: Time-Series Language Models for Reasoning over Multivariate Medical Text- and Time-Series Data

October 2, 2025
papers.authors: Patrick Langer, Thomas Kaar, Max Rosenblattl, Maxwell A. Xu, Winnie Chow, Martin Maritsch, Aradhana Verma, Brian Han, Daniel Seung Kim, Henry Chubb, Scott Ceresnak, Aydin Zahedivash, Alexander Tarlochan Singh Sandhu, Fatima Rodriguez, Daniel McDuff, Elgar Fleisch, Oliver Aalami, Filipe Barata, Paul Schmiedmayer
cs.AI

papers.abstract

LLMs haben sich als leistungsstarke Werkzeuge zur Interpretation multimodaler Daten etabliert. In der Medizin bieten sie besonderes Potenzial, um große Mengen klinischer Informationen in umsetzbare Erkenntnisse und digitale Gesundheitsanwendungen zu synthetisieren. Eine wesentliche Einschränkung bleibt jedoch ihre Unfähigkeit, Zeitreihen zu verarbeiten. Um diese Lücke zu schließen, stellen wir OpenTSLM vor, eine Familie von Time Series Language Models (TSLMs), die durch die Integration von Zeitreihen als native Modalität in vortrainierte LLMs entwickelt wurden und die Schlussfolgerung über mehrere Zeitreihen beliebiger Länge ermöglichen. Wir untersuchen zwei Architekturen für OpenTSLM. Die erste, OpenTSLM-SoftPrompt, modelliert Zeitreihen implizit, indem lernbare Zeitreihen-Tokens über Soft Prompting mit Text-Tokens verkettet werden. Obwohl parameter-effizient, nehmen wir an, dass explizite Zeitreihenmodellierung besser skaliert und implizite Ansätze übertrifft. Daher führen wir OpenTSLM-Flamingo ein, das Zeitreihen über Cross-Attention mit Text integriert. Wir vergleichen beide Varianten mit Baseline-Modellen, die Zeitreihen als Text-Tokens oder Diagramme behandeln, über eine Reihe von Text-Zeitreihen Chain-of-Thought (CoT)-Schlussfolgerungsaufgaben. Wir stellen drei Datensätze vor: HAR-CoT, Sleep-CoT und ECG-QA-CoT. In allen Fällen übertreffen die OpenTSLM-Modelle die Baselines und erreichen 69,9 F1 in der Schlafphasenklassifizierung und 65,4 in HAR, verglichen mit 9,05 und 52,2 für feinabgestimmte textbasierte Modelle. Bemerkenswerterweise übertreffen sogar 1B-Parameter OpenTSLM-Modelle GPT-4o (15,47 und 2,95). OpenTSLM-Flamingo erreicht eine vergleichbare Leistung wie OpenTSLM-SoftPrompt und übertrifft es bei längeren Sequenzen, während die Speicheranforderungen stabil bleiben. Im Gegensatz dazu wächst der Speicherbedarf von SoftPrompt exponentiell mit der Sequenzlänge und erfordert etwa 110 GB im Vergleich zu 40 GB VRAM beim Training von ECG-QA mit LLaMA-3B. Expertenbewertungen durch Kliniker zeigen starke Schlussfolgerungsfähigkeiten von OpenTSLMs bei ECG-QA. Um weitere Forschung zu ermöglichen, stellen wir den gesamten Code, die Datensätze und Modelle Open-Source zur Verfügung.
English
LLMs have emerged as powerful tools for interpreting multimodal data. In medicine, they hold particular promise for synthesizing large volumes of clinical information into actionable insights and digital health applications. Yet, a major limitation remains their inability to handle time series. To overcome this gap, we present OpenTSLM, a family of Time Series Language Models (TSLMs) created by integrating time series as a native modality to pretrained LLMs, enabling reasoning over multiple time series of any length. We investigate two architectures for OpenTSLM. The first, OpenTSLM-SoftPrompt, models time series implicitly by concatenating learnable time series tokens with text tokens via soft prompting. Although parameter-efficient, we hypothesize that explicit time series modeling scales better and outperforms implicit approaches. We thus introduce OpenTSLM-Flamingo, which integrates time series with text via cross-attention. We benchmark both variants against baselines that treat time series as text tokens or plots, across a suite of text-time-series Chain-of-Thought (CoT) reasoning tasks. We introduce three datasets: HAR-CoT, Sleep-CoT, and ECG-QA-CoT. Across all, OpenTSLM models outperform baselines, reaching 69.9 F1 in sleep staging and 65.4 in HAR, compared to 9.05 and 52.2 for finetuned text-only models. Notably, even 1B-parameter OpenTSLM models surpass GPT-4o (15.47 and 2.95). OpenTSLM-Flamingo matches OpenTSLM-SoftPrompt in performance and outperforms on longer sequences, while maintaining stable memory requirements. By contrast, SoftPrompt grows exponentially in memory with sequence length, requiring around 110 GB compared to 40 GB VRAM when training on ECG-QA with LLaMA-3B. Expert reviews by clinicians find strong reasoning capabilities exhibited by OpenTSLMs on ECG-QA. To facilitate further research, we provide all code, datasets, and models open-source.
PDF122October 6, 2025