ClinSeekAgent : Automatisation de la recherche de preuves multimodales pour le raisonnement clinique agentique

Résumé

Les grands modèles de langage (LLMs) et les systèmes agentiques se sont révélés prometteurs pour l'aide à la décision clinique, mais les travaux existants supposent en grande partie que les preuves ont déjà été organisées et remises au modèle. Les workflows cliniques réels exigent au contraire que les agents recherchent activement, planifient de manière itérative et synthétisent des preuves multimodales provenant de sources hétérogènes. Dans cet article, nous présentons ClinSeekAgent, un cadre agentique automatisé pour la recherche dynamique de preuves multimodales, qui fait passer le paradigme de la consommation passive de preuves à l'acquisition active de preuves. À partir d'une simple requête clinique et d'un accès aux sources de données brutes, ClinSeekAgent rassemble des preuves en interrogeant des bases de connaissances médicales, en naviguant dans les dossiers de santé électroniques (DSE) bruts et en invoquant des outils d'imagerie médicale ; il affine ses hypothèses à mesure que de nouvelles informations émergent ; et intègre les preuves collectées dans des décisions cliniques fondées. ClinSeekAgent sert à la fois d'agent au moment de l'inférence pour les LLMs de pointe et de pipeline au moment de l'entraînement pour distiller des trajectoires agentiques de haute qualité dans des modèles open-source compacts. Pour valider son efficacité au moment de l'inférence, nous construisons ClinSeek-Bench, qui associe un raisonnement sur des entrées organisées à partir de preuves présélectionnées fixes avec une recherche automatisée de preuves sur des données cliniques brutes. Sur les tâches de DSE textuelles, ClinSeekAgent améliore Claude Opus 4.6 de 60,0 à 63,2 en F1 global et MiniMax M2.5 de 43,1 à 47,3, avec des gains positifs en prédiction de risque dans 7 des 9 modèles hôtes évalués. Sur les tâches multimodales, ClinSeekAgent améliore Claude Opus 4.6 de 47,5 à 62,6 (+15,1) ; tous les modèles évalués s'améliorent dans les trois groupes de tâches liées aux radiographies thoraciques (CXR). Nous validons en outre ClinSeekAgent en tant que pipeline d'entraînement en distillant des trajectoires de recherche de preuves agentiques dans ClinSeek-35B-A3B, qui atteint un F1 moyen de 34,0 sur le benchmark existant AgentEHR-Bench, améliorant sa baseline Qwen3.5-35B-A3B de +11,9 points et se rapprochant de Claude Opus 4.6.

English

Large language models (LLMs) and agentic systems have shown promise for clinical decision support, but existing works largely assume that evidence has already been curated and handed to the model. Real-world clinical workflows instead require agents to actively seek, iteratively plan, and synthesize multimodal evidence from heterogeneous sources. In this paper, we introduce ClinSeekAgent, an automated agentic framework for dynamic multimodal evidence seeking that shifts the paradigm from passive evidence consumption to active evidence acquisition. Given only a clinical query and access to raw data sources, ClinSeekAgent gathers evidence by querying medical knowledge bases, navigating raw EHRs, and invoking medical imaging tools; refines its hypotheses as new information emerges; and integrates the collected evidence into grounded clinical decisions. ClinSeekAgent serves both as an inference-time agent for frontier LLMs and as a training-time pipeline for distilling high-quality agent trajectories into compact open-source models. To validate its inference-time effectiveness, we construct ClinSeek-Bench, which pairs Curated Input reasoning from fixed pre-selected evidence with Automated Evidence-Seeking over raw clinical data. On text-only EHR tasks, ClinSeekAgent improves Claude Opus 4.6 from 60.0 to 63.2 overall F1 and MiniMax M2.5 from 43.1 to 47.3, with positive risk-prediction gains in 7 out of 9 evaluated host models. On multimodal tasks, ClinSeekAgent improves Claude Opus 4.6 from 47.5 to 62.6 (+15.1); all evaluated models improve across the three CXR-related task groups. We further validate ClinSeekAgent as a training pipeline by distilling agentic evidence-seeking trajectories into ClinSeek-35B-A3B, which achieves 34.0 average F1 on existing AgentEHR-Bench, improving over its Qwen3.5-35B-A3B baseline by +11.9 points and approaching Claude Opus 4.6.