ClinSeekAgent: Automatización de la Búsqueda de Evidencias Multimodales para el Razonamiento Clínico Agéntico

Resumen

Los grandes modelos de lenguaje (LLMs) y los sistemas agénticos han mostrado potencial para el apoyo a decisiones clínicas, pero los trabajos existentes suponen en gran medida que la evidencia ya ha sido seleccionada y entregada al modelo. Los flujos de trabajo clínicos reales, en cambio, requieren que los agentes busquen activamente, planifiquen de forma iterativa y sinteticen evidencia multimodal proveniente de fuentes heterogéneas. En este artículo presentamos ClinSeekAgent, un marco agéntico automatizado para la búsqueda dinámica de evidencia multimodal que cambia el paradigma del consumo pasivo de evidencia a la adquisición activa de la misma. Dada únicamente una consulta clínica y acceso a fuentes de datos en bruto, ClinSeekAgent recopila evidencia consultando bases de conocimiento médico, navegando por historias clínicas electrónicas (HCE) sin procesar e invocando herramientas de imagen médica; refina sus hipótesis a medida que emerge nueva información; e integra la evidencia recolectada en decisiones clínicas fundamentadas. ClinSeekAgent sirve tanto como agente en tiempo de inferencia para LLMs de vanguardia como como un pipeline en tiempo de entrenamiento para destilar trayectorias agénticas de alta calidad en modelos compactos de código abierto. Para validar su efectividad en tiempo de inferencia, construimos ClinSeek-Bench, que empareja razonamiento de Entrada Seleccionada a partir de evidencia predefinida fija con Búsqueda Automática de Evidencia sobre datos clínicos en bruto. En tareas de HCE solo texto, ClinSeekAgent mejora el F1 global de Claude Opus 4.6 de 60,0 a 63,2 y el de MiniMax M2.5 de 43,1 a 47,3, con ganancias positivas en la predicción de riesgo en 7 de los 9 modelos anfitriones evaluados. En tareas multimodales, ClinSeekAgent mejora a Claude Opus 4.6 de 47,5 a 62,6 (+15,1); todos los modelos evaluados mejoran en los tres grupos de tareas relacionadas con radiografías de tórax (CXR). Validamos además ClinSeekAgent como pipeline de entrenamiento al destilar trayectorias agénticas de búsqueda de evidencia en ClinSeek-35B-A3B, que alcanza un F1 promedio de 34,0 en AgentEHR-Bench existente, mejorando en +11,9 puntos respecto a su línea base Qwen3.5-35B-A3B y acercándose a Claude Opus 4.6.

English

Large language models (LLMs) and agentic systems have shown promise for clinical decision support, but existing works largely assume that evidence has already been curated and handed to the model. Real-world clinical workflows instead require agents to actively seek, iteratively plan, and synthesize multimodal evidence from heterogeneous sources. In this paper, we introduce ClinSeekAgent, an automated agentic framework for dynamic multimodal evidence seeking that shifts the paradigm from passive evidence consumption to active evidence acquisition. Given only a clinical query and access to raw data sources, ClinSeekAgent gathers evidence by querying medical knowledge bases, navigating raw EHRs, and invoking medical imaging tools; refines its hypotheses as new information emerges; and integrates the collected evidence into grounded clinical decisions. ClinSeekAgent serves both as an inference-time agent for frontier LLMs and as a training-time pipeline for distilling high-quality agent trajectories into compact open-source models. To validate its inference-time effectiveness, we construct ClinSeek-Bench, which pairs Curated Input reasoning from fixed pre-selected evidence with Automated Evidence-Seeking over raw clinical data. On text-only EHR tasks, ClinSeekAgent improves Claude Opus 4.6 from 60.0 to 63.2 overall F1 and MiniMax M2.5 from 43.1 to 47.3, with positive risk-prediction gains in 7 out of 9 evaluated host models. On multimodal tasks, ClinSeekAgent improves Claude Opus 4.6 from 47.5 to 62.6 (+15.1); all evaluated models improve across the three CXR-related task groups. We further validate ClinSeekAgent as a training pipeline by distilling agentic evidence-seeking trajectories into ClinSeek-35B-A3B, which achieves 34.0 average F1 on existing AgentEHR-Bench, improving over its Qwen3.5-35B-A3B baseline by +11.9 points and approaching Claude Opus 4.6.