MedAgent-Pro: Auf dem Weg zu einer multimodalen evidenzbasierten medizinischen Diagnose durch einen agentenbasierten Workflow für logisches Schlussfolgern
MedAgent-Pro: Towards Multi-modal Evidence-based Medical Diagnosis via Reasoning Agentic Workflow
March 21, 2025
Autoren: Ziyue Wang, Junde Wu, Chang Han Low, Yueming Jin
cs.AI
Zusammenfassung
Die Entwicklung zuverlässiger KI-Systeme zur Unterstützung von Humanmedizinern bei der multimodalen medizinischen Diagnose ist seit langem ein zentrales Ziel für Forscher. In jüngster Zeit haben Multimodale Large Language Models (MLLMs) erhebliche Aufmerksamkeit erregt und Erfolge in verschiedenen Domänen erzielt. Mit ihren starken Fähigkeiten zur logischen Schlussfolgerung und der Möglichkeit, diverse Aufgaben basierend auf Benutzeranweisungen auszuführen, bergen sie großes Potenzial zur Verbesserung der medizinischen Diagnostik. Die direkte Anwendung von MLLMs im medizinischen Bereich stellt jedoch nach wie vor Herausforderungen dar. Ihnen fehlt eine detaillierte Wahrnehmung visueller Eingaben, was ihre Fähigkeit zur quantitativen Bildanalyse einschränkt, die für medizinische Diagnosen entscheidend ist. Darüber hinaus zeigen MLLMs häufig Halluzinationen und Inkonsistenzen in der Argumentation, während klinische Diagnosen strikt an etablierte Kriterien gebunden sein müssen. Um diese Herausforderungen zu bewältigen, schlagen wir MedAgent-Pro vor, ein evidenzbasiertes, agentenbasiertes System, das darauf abzielt, zuverlässige, erklärbare und präzise medizinische Diagnosen zu erzielen. Dies wird durch einen hierarchischen Workflow erreicht: Auf der Aufgabenebene generiert wissensbasierte Argumentation zuverlässige Diagnosepläne für spezifische Krankheiten gemäß abgerufener klinischer Kriterien. Auf der Fallverarbeitungsebene verarbeiten mehrere Tool-Agenten multimodale Eingaben, analysieren verschiedene Indikatoren gemäß dem Plan und liefern eine endgültige Diagnose basierend auf quantitativen und qualitativen Beweisen. Umfassende Experimente sowohl zu 2D- als auch zu 3D-Diagnoseaufgaben demonstrieren die Überlegenheit und Effektivität von MedAgent-Pro, während Fallstudien zusätzlich seine Zuverlässigkeit und Interpretierbarkeit hervorheben. Der Code ist verfügbar unter https://github.com/jinlab-imvr/MedAgent-Pro.
English
Developing reliable AI systems to assist human clinicians in multi-modal
medical diagnosis has long been a key objective for researchers. Recently,
Multi-modal Large Language Models (MLLMs) have gained significant attention and
achieved success across various domains. With strong reasoning capabilities and
the ability to perform diverse tasks based on user instructions, they hold
great potential for enhancing medical diagnosis. However, directly applying
MLLMs to the medical domain still presents challenges. They lack detailed
perception of visual inputs, limiting their ability to perform quantitative
image analysis, which is crucial for medical diagnostics. Additionally, MLLMs
often exhibit hallucinations and inconsistencies in reasoning, whereas clinical
diagnoses must adhere strictly to established criteria. To address these
challenges, we propose MedAgent-Pro, an evidence-based reasoning agentic system
designed to achieve reliable, explainable, and precise medical diagnoses. This
is accomplished through a hierarchical workflow: at the task level,
knowledge-based reasoning generate reliable diagnostic plans for specific
diseases following retrieved clinical criteria. While at the case level,
multiple tool agents process multi-modal inputs, analyze different indicators
according to the plan, and provide a final diagnosis based on both quantitative
and qualitative evidence. Comprehensive experiments on both 2D and 3D medical
diagnosis tasks demonstrate the superiority and effectiveness of MedAgent-Pro,
while case studies further highlight its reliability and interpretability. The
code is available at https://github.com/jinlab-imvr/MedAgent-Pro.Summary
AI-Generated Summary