ClinSeekAgent: Automatisierung der multimodalen Evidenzsuche für agentisches klinisches Denken

Zusammenfassung

Große Sprachmodelle (Large Language Models, LLMs) und agentische Systeme haben Potenzial für die klinische Entscheidungsunterstützung gezeigt, doch bestehende Arbeiten gehen weitgehend davon aus, dass Evidenz bereits kuratiert und dem Modell übergeben wurde. Reale klinische Arbeitsabläufe erfordern hingegen, dass Agenten aktiv suchen, iterativ planen und multimodale Evidenz aus heterogenen Quellen synthetisieren. In diesem Beitrag stellen wir ClinSeekAgent vor, ein automatisiertes agentisches Framework zur dynamischen multimodalen Evidenzsuche, das das Paradigma von passivem Evidenzkonsum zu aktivem Evidenzerwerb verschiebt. Ausgehend lediglich von einer klinischen Anfrage und Zugang zu Rohdatenquellen sammelt ClinSeekAgent Evidenz durch Abfragen medizinischer Wissensdatenbanken, Navigieren in rohen elektronischen Patientenakten (EHRs) und Aufrufen medizinischer Bildgebungswerkzeuge; verfeinert seine Hypothesen, während neue Informationen auftauchen; und integriert die gesammelte Evidenz in fundierte klinische Entscheidungen. ClinSeekAgent dient sowohl als Agent zur Inferenzzeit für führende LLMs als auch als Pipeline zur Trainingszeit, um qualitativ hochwertige Agent-Trajektorien in kompakte Open-Source-Modelle zu destillieren. Zur Validierung seiner Effektivität zur Inferenzzeit konstruieren wir ClinSeek-Bench, das Reasoning auf Basis kuratierter Eingaben aus fest vorgewählter Evidenz mit automatisierter Evidenzsuche über rohe klinische Daten paart. Bei rein textbasierten EHR-Aufgaben verbessert ClinSeekAgent Claude Opus 4.6 von 60,0 auf 63,2 im gesamten F1-Wert und MiniMax M2.5 von 43,1 auf 47,3, mit positiven Risikovorhersagegewinnen in 7 von 9 evaluierten Host-Modellen. Bei multimodalen Aufgaben steigert ClinSeekAgent Claude Opus 4.6 von 47,5 auf 62,6 (+15,1); alle evaluierten Modelle verbessern sich in den drei Röntgen-Thorax-bezogenen Aufgabengruppen. Wir validieren ClinSeekAgent weiterhin als Trainingspipeline, indem wir agentische Evidenzsuch-Trajektorien in ClinSeek-35B-A3B destillieren, das einen durchschnittlichen F1-Wert von 34,0 auf dem bestehenden AgentEHR-Bench erreicht, eine Verbesserung um +11,9 Punkte gegenüber seiner Qwen3.5-35B-A3B-Baseline und eine Annäherung an Claude Opus 4.6.

English

Large language models (LLMs) and agentic systems have shown promise for clinical decision support, but existing works largely assume that evidence has already been curated and handed to the model. Real-world clinical workflows instead require agents to actively seek, iteratively plan, and synthesize multimodal evidence from heterogeneous sources. In this paper, we introduce ClinSeekAgent, an automated agentic framework for dynamic multimodal evidence seeking that shifts the paradigm from passive evidence consumption to active evidence acquisition. Given only a clinical query and access to raw data sources, ClinSeekAgent gathers evidence by querying medical knowledge bases, navigating raw EHRs, and invoking medical imaging tools; refines its hypotheses as new information emerges; and integrates the collected evidence into grounded clinical decisions. ClinSeekAgent serves both as an inference-time agent for frontier LLMs and as a training-time pipeline for distilling high-quality agent trajectories into compact open-source models. To validate its inference-time effectiveness, we construct ClinSeek-Bench, which pairs Curated Input reasoning from fixed pre-selected evidence with Automated Evidence-Seeking over raw clinical data. On text-only EHR tasks, ClinSeekAgent improves Claude Opus 4.6 from 60.0 to 63.2 overall F1 and MiniMax M2.5 from 43.1 to 47.3, with positive risk-prediction gains in 7 out of 9 evaluated host models. On multimodal tasks, ClinSeekAgent improves Claude Opus 4.6 from 47.5 to 62.6 (+15.1); all evaluated models improve across the three CXR-related task groups. We further validate ClinSeekAgent as a training pipeline by distilling agentic evidence-seeking trajectories into ClinSeek-35B-A3B, which achieves 34.0 average F1 on existing AgentEHR-Bench, improving over its Qwen3.5-35B-A3B baseline by +11.9 points and approaching Claude Opus 4.6.