MedAgent-Pro: Rumo ao Diagnóstico Médico Baseado em Evidências Multimodais por meio de Fluxo de Trabalho Agente de Raciocínio
MedAgent-Pro: Towards Multi-modal Evidence-based Medical Diagnosis via Reasoning Agentic Workflow
March 21, 2025
Autores: Ziyue Wang, Junde Wu, Chang Han Low, Yueming Jin
cs.AI
Resumo
O desenvolvimento de sistemas de IA confiáveis para auxiliar clínicos humanos no diagnóstico médico multimodal tem sido um objetivo fundamental para os pesquisadores. Recentemente, os Modelos de Linguagem Multimodais de Grande Escala (MLLMs) ganharam atenção significativa e obtiveram sucesso em diversos domínios. Com capacidades avançadas de raciocínio e a habilidade de executar diversas tarefas com base em instruções do usuário, eles apresentam grande potencial para aprimorar o diagnóstico médico. No entanto, a aplicação direta de MLLMs no domínio médico ainda enfrenta desafios. Eles carecem de uma percepção detalhada de entradas visuais, limitando sua capacidade de realizar análises quantitativas de imagens, que são cruciais para diagnósticos médicos. Além disso, os MLLMs frequentemente exibem alucinações e inconsistências no raciocínio, enquanto os diagnósticos clínicos devem aderir estritamente a critérios estabelecidos. Para enfrentar esses desafios, propomos o MedAgent-Pro, um sistema de raciocínio baseado em evidências projetado para alcançar diagnósticos médicos confiáveis, explicáveis e precisos. Isso é realizado por meio de um fluxo de trabalho hierárquico: no nível da tarefa, o raciocínio baseado em conhecimento gera planos de diagnóstico confiáveis para doenças específicas, seguindo critérios clínicos recuperados. Já no nível do caso, múltiplos agentes de ferramentas processam entradas multimodais, analisam diferentes indicadores de acordo com o plano e fornecem um diagnóstico final baseado em evidências quantitativas e qualitativas. Experimentos abrangentes em tarefas de diagnóstico médico 2D e 3D demonstram a superioridade e eficácia do MedAgent-Pro, enquanto estudos de caso destacam ainda mais sua confiabilidade e interpretabilidade. O código está disponível em https://github.com/jinlab-imvr/MedAgent-Pro.
English
Developing reliable AI systems to assist human clinicians in multi-modal
medical diagnosis has long been a key objective for researchers. Recently,
Multi-modal Large Language Models (MLLMs) have gained significant attention and
achieved success across various domains. With strong reasoning capabilities and
the ability to perform diverse tasks based on user instructions, they hold
great potential for enhancing medical diagnosis. However, directly applying
MLLMs to the medical domain still presents challenges. They lack detailed
perception of visual inputs, limiting their ability to perform quantitative
image analysis, which is crucial for medical diagnostics. Additionally, MLLMs
often exhibit hallucinations and inconsistencies in reasoning, whereas clinical
diagnoses must adhere strictly to established criteria. To address these
challenges, we propose MedAgent-Pro, an evidence-based reasoning agentic system
designed to achieve reliable, explainable, and precise medical diagnoses. This
is accomplished through a hierarchical workflow: at the task level,
knowledge-based reasoning generate reliable diagnostic plans for specific
diseases following retrieved clinical criteria. While at the case level,
multiple tool agents process multi-modal inputs, analyze different indicators
according to the plan, and provide a final diagnosis based on both quantitative
and qualitative evidence. Comprehensive experiments on both 2D and 3D medical
diagnosis tasks demonstrate the superiority and effectiveness of MedAgent-Pro,
while case studies further highlight its reliability and interpretability. The
code is available at https://github.com/jinlab-imvr/MedAgent-Pro.Summary
AI-Generated Summary