ClinSeekAgent: Automatizando a Busca de Evidências Multimodais para o Raciocínio Clínico Agencial

Resumo

Grandes modelos de linguagem (LLMs) e sistemas agentivos têm demonstrado potencial para o suporte à decisão clínica, mas os trabalhos existentes em grande parte presumem que as evidências já foram curadas e entregues ao modelo. Fluxos de trabalho clínicos do mundo real, em vez disso, exigem que os agentes busquem ativamente, planejem iterativamente e sintetizem evidências multimodais de fontes heterogêneas. Neste artigo, apresentamos o ClinSeekAgent, uma estrutura agentiva automatizada para busca dinâmica de evidências multimodais que muda o paradigma do consumo passivo de evidências para a aquisição ativa de evidências. Dada apenas uma consulta clínica e acesso a fontes de dados brutas, o ClinSeekAgent coleta evidências consultando bases de conhecimento médico, navegando em prontuários eletrônicos (EHRs) brutos e acionando ferramentas de imagem médica; refina suas hipóteses à medida que novas informações surgem; e integra as evidências coletadas em decisões clínicas fundamentadas. O ClinSeekAgent serve tanto como um agente em tempo de inferência para LLMs de ponta quanto como um pipeline em tempo de treinamento para destilar trajetórias agentivas de alta qualidade em modelos compactos de código aberto. Para validar sua eficácia em tempo de inferência, construímos o ClinSeek-Bench, que combina raciocínio de Entrada Curada a partir de evidências pré-selecionadas fixas com Busca Automatizada de Evidências sobre dados clínicos brutos. Em tarefas de EHR apenas com texto, o ClinSeekAgent melhora o F1 geral do Claude Opus 4.6 de 60,0 para 63,2 e do MiniMax M2.5 de 43,1 para 47,3, com ganhos positivos na previsão de risco em 7 dos 9 modelos hospedeiros avaliados. Em tarefas multimodais, o ClinSeekAgent melhora o Claude Opus 4.6 de 47,5 para 62,6 (+15,1); todos os modelos avaliados melhoram nos três grupos de tarefas relacionadas a radiografia de tórax (CXR). Validamos ainda o ClinSeekAgent como um pipeline de treinamento ao destilar trajetórias agentivas de busca de evidências no ClinSeek-35B-A3B, que alcança um F1 médio de 34,0 no AgentEHR-Bench existente, melhorando em +11,9 pontos em relação à sua linha de base Qwen3.5-35B-A3B e se aproximando do Claude Opus 4.6.

English

Large language models (LLMs) and agentic systems have shown promise for clinical decision support, but existing works largely assume that evidence has already been curated and handed to the model. Real-world clinical workflows instead require agents to actively seek, iteratively plan, and synthesize multimodal evidence from heterogeneous sources. In this paper, we introduce ClinSeekAgent, an automated agentic framework for dynamic multimodal evidence seeking that shifts the paradigm from passive evidence consumption to active evidence acquisition. Given only a clinical query and access to raw data sources, ClinSeekAgent gathers evidence by querying medical knowledge bases, navigating raw EHRs, and invoking medical imaging tools; refines its hypotheses as new information emerges; and integrates the collected evidence into grounded clinical decisions. ClinSeekAgent serves both as an inference-time agent for frontier LLMs and as a training-time pipeline for distilling high-quality agent trajectories into compact open-source models. To validate its inference-time effectiveness, we construct ClinSeek-Bench, which pairs Curated Input reasoning from fixed pre-selected evidence with Automated Evidence-Seeking over raw clinical data. On text-only EHR tasks, ClinSeekAgent improves Claude Opus 4.6 from 60.0 to 63.2 overall F1 and MiniMax M2.5 from 43.1 to 47.3, with positive risk-prediction gains in 7 out of 9 evaluated host models. On multimodal tasks, ClinSeekAgent improves Claude Opus 4.6 from 47.5 to 62.6 (+15.1); all evaluated models improve across the three CXR-related task groups. We further validate ClinSeekAgent as a training pipeline by distilling agentic evidence-seeking trajectories into ClinSeek-35B-A3B, which achieves 34.0 average F1 on existing AgentEHR-Bench, improving over its Qwen3.5-35B-A3B baseline by +11.9 points and approaching Claude Opus 4.6.