ChatPaper.aiChatPaper

MedAgent-Pro: Hacia un diagnóstico médico basado en evidencia multimodal mediante flujos de trabajo de agentes de razonamiento

MedAgent-Pro: Towards Multi-modal Evidence-based Medical Diagnosis via Reasoning Agentic Workflow

March 21, 2025
Autores: Ziyue Wang, Junde Wu, Chang Han Low, Yueming Jin
cs.AI

Resumen

El desarrollo de sistemas de IA confiables para asistir a los médicos humanos en el diagnóstico médico multimodal ha sido durante mucho tiempo un objetivo clave para los investigadores. Recientemente, los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs, por sus siglas en inglés) han ganado una atención significativa y han logrado éxitos en diversos dominios. Con fuertes capacidades de razonamiento y la habilidad de realizar diversas tareas basadas en instrucciones del usuario, estos modelos tienen un gran potencial para mejorar el diagnóstico médico. Sin embargo, la aplicación directa de los MLLMs en el ámbito médico aún presenta desafíos. Carecen de una percepción detallada de las entradas visuales, lo que limita su capacidad para realizar análisis cuantitativos de imágenes, algo crucial para el diagnóstico médico. Además, los MLLMs a menudo muestran alucinaciones e inconsistencias en el razonamiento, mientras que los diagnósticos clínicos deben adherirse estrictamente a criterios establecidos. Para abordar estos desafíos, proponemos MedAgent-Pro, un sistema de razonamiento basado en evidencia diseñado para lograr diagnósticos médicos confiables, explicables y precisos. Esto se consigue mediante un flujo de trabajo jerárquico: a nivel de tarea, el razonamiento basado en conocimiento genera planes de diagnóstico confiables para enfermedades específicas siguiendo criterios clínicos recuperados. Mientras que a nivel de caso, múltiples agentes de herramientas procesan entradas multimodales, analizan diferentes indicadores según el plan y proporcionan un diagnóstico final basado en evidencia tanto cuantitativa como cualitativa. Experimentos exhaustivos en tareas de diagnóstico médico en 2D y 3D demuestran la superioridad y efectividad de MedAgent-Pro, mientras que estudios de caso destacan aún más su confiabilidad e interpretabilidad. El código está disponible en https://github.com/jinlab-imvr/MedAgent-Pro.
English
Developing reliable AI systems to assist human clinicians in multi-modal medical diagnosis has long been a key objective for researchers. Recently, Multi-modal Large Language Models (MLLMs) have gained significant attention and achieved success across various domains. With strong reasoning capabilities and the ability to perform diverse tasks based on user instructions, they hold great potential for enhancing medical diagnosis. However, directly applying MLLMs to the medical domain still presents challenges. They lack detailed perception of visual inputs, limiting their ability to perform quantitative image analysis, which is crucial for medical diagnostics. Additionally, MLLMs often exhibit hallucinations and inconsistencies in reasoning, whereas clinical diagnoses must adhere strictly to established criteria. To address these challenges, we propose MedAgent-Pro, an evidence-based reasoning agentic system designed to achieve reliable, explainable, and precise medical diagnoses. This is accomplished through a hierarchical workflow: at the task level, knowledge-based reasoning generate reliable diagnostic plans for specific diseases following retrieved clinical criteria. While at the case level, multiple tool agents process multi-modal inputs, analyze different indicators according to the plan, and provide a final diagnosis based on both quantitative and qualitative evidence. Comprehensive experiments on both 2D and 3D medical diagnosis tasks demonstrate the superiority and effectiveness of MedAgent-Pro, while case studies further highlight its reliability and interpretability. The code is available at https://github.com/jinlab-imvr/MedAgent-Pro.

Summary

AI-Generated Summary

PDF62March 31, 2025