ClinSeekAgent: Het automatiseren van multimodaal bewijs zoeken voor agentisch klinisch redeneren

Samenvatting

Grote taalmodellen (LLM's) en agentische systemen zijn veelbelovend gebleken voor klinische beslissingsondersteuning, maar bestaande werken gaan grotendeels ervan uit dat bewijsmateriaal al is samengesteld en aan het model is overhandigd. In de praktijk vereisen klinische workflows echter dat agenten actief bewijsmateriaal zoeken, iteratief plannen en multimodaal bewijsmateriaal uit heterogene bronnen synthetiseren. In dit artikel introduceren we ClinSeekAgent, een geautomatiseerd agentisch raamwerk voor dynamisch multimodaal bewijszoeken dat het paradigma verschuift van passieve bewijsconsumptie naar actieve bewijsverwerving. Uitgaande van alleen een klinische vraag en toegang tot ruwe databronnen, verzamelt ClinSeekAgent bewijs door medische kennisbanken te bevragen, ruwe EPD's te doorzoeken en medische beeldvormingstools aan te roepen; het verfijnt zijn hypothesen naarmate nieuwe informatie opkomt; en integreert het verzamelde bewijsmateriaal in gefundeerde klinische beslissingen. ClinSeekAgent dient zowel als een inferentie-tijd agent voor geavanceerde LLM's als als een training-tijd pijplijn om hoogwaardige agenttrajecten te distilleren naar compacte opensource-modellen. Om de effectiviteit tijdens inferentie te valideren, construeren we ClinSeek-Bench, dat Curated Input-redenering op basis van vast vooraf geselecteerd bewijsmateriaal koppelt aan Automated Evidence-Seeking over ruwe klinische gegevens. Bij uitsluitend tekstuele EPD-taken verbetert ClinSeekAgent Claude Opus 4.6 van 60,0 naar 63,2 overall F1 en MiniMax M2.5 van 43,1 naar 47,3, met positieve risicovoorspellingswinst in 7 van de 9 geëvalueerde hostmodellen. Bij multimodale taken verbetert ClinSeekAgent Claude Opus 4.6 van 47,5 naar 62,6 (+15,1); alle geëvalueerde modellen verbeteren in de drie aan CXR gerelateerde taakgroepen. We valideren ClinSeekAgent verder als een trainingspijplijn door agentische bewijszoektrajecten te distilleren naar ClinSeek-35B-A3B, die een gemiddelde F1 van 34,0 behaalt op bestaande AgentEHR-Bench, een verbetering van +11,9 punten ten opzichte van de Qwen3.5-35B-A3B-baseline en bijna Claude Opus 4.6 benadert.

English

Large language models (LLMs) and agentic systems have shown promise for clinical decision support, but existing works largely assume that evidence has already been curated and handed to the model. Real-world clinical workflows instead require agents to actively seek, iteratively plan, and synthesize multimodal evidence from heterogeneous sources. In this paper, we introduce ClinSeekAgent, an automated agentic framework for dynamic multimodal evidence seeking that shifts the paradigm from passive evidence consumption to active evidence acquisition. Given only a clinical query and access to raw data sources, ClinSeekAgent gathers evidence by querying medical knowledge bases, navigating raw EHRs, and invoking medical imaging tools; refines its hypotheses as new information emerges; and integrates the collected evidence into grounded clinical decisions. ClinSeekAgent serves both as an inference-time agent for frontier LLMs and as a training-time pipeline for distilling high-quality agent trajectories into compact open-source models. To validate its inference-time effectiveness, we construct ClinSeek-Bench, which pairs Curated Input reasoning from fixed pre-selected evidence with Automated Evidence-Seeking over raw clinical data. On text-only EHR tasks, ClinSeekAgent improves Claude Opus 4.6 from 60.0 to 63.2 overall F1 and MiniMax M2.5 from 43.1 to 47.3, with positive risk-prediction gains in 7 out of 9 evaluated host models. On multimodal tasks, ClinSeekAgent improves Claude Opus 4.6 from 47.5 to 62.6 (+15.1); all evaluated models improve across the three CXR-related task groups. We further validate ClinSeekAgent as a training pipeline by distilling agentic evidence-seeking trajectories into ClinSeek-35B-A3B, which achieves 34.0 average F1 on existing AgentEHR-Bench, improving over its Qwen3.5-35B-A3B baseline by +11.9 points and approaching Claude Opus 4.6.