MedAgent-Pro: Naar Multi-modale, Bewijsgebaseerde Medische Diagnostiek via Redenerende Agent-Gestuurde Werkstromen
MedAgent-Pro: Towards Multi-modal Evidence-based Medical Diagnosis via Reasoning Agentic Workflow
March 21, 2025
Auteurs: Ziyue Wang, Junde Wu, Chang Han Low, Yueming Jin
cs.AI
Samenvatting
Het ontwikkelen van betrouwbare AI-systemen om menselijke clinici te ondersteunen bij multi-modale medische diagnoses is al lang een belangrijk doel voor onderzoekers. Onlangs hebben Multi-modale Large Language Models (MLLMs) aanzienlijke aandacht gekregen en succes geboekt in verschillende domeinen. Met sterke redeneervaardigheden en de mogelijkheid om diverse taken uit te voeren op basis van gebruikersinstructies, bieden ze groot potentieel voor het verbeteren van medische diagnoses. Het direct toepassen van MLLMs in de medische sector brengt echter nog steeds uitdagingen met zich mee. Ze hebben een beperkt gedetailleerd begrip van visuele inputs, wat hun vermogen om kwantitatieve beeldanalyses uit te voeren beperkt, wat cruciaal is voor medische diagnostiek. Bovendien vertonen MLLMs vaak hallucinaties en inconsistenties in redeneringen, terwijl klinische diagnoses strikt moeten voldoen aan vastgestelde criteria. Om deze uitdagingen aan te pakken, stellen we MedAgent-Pro voor, een op bewijs gebaseerd redeneersysteem dat is ontworpen om betrouwbare, verklaarbare en precieze medische diagnoses te bereiken. Dit wordt gerealiseerd door een hiërarchische workflow: op taakniveau genereren kennisgebaseerde redeneringen betrouwbare diagnostische plannen voor specifieke ziekten volgens opgehaalde klinische criteria. Op casusniveau verwerken meerdere toolagents multi-modale inputs, analyseren verschillende indicatoren volgens het plan en bieden een definitieve diagnose op basis van zowel kwantitatieve als kwalitatieve bewijzen. Uitgebreide experimenten op zowel 2D- als 3D-medische diagnosetaken demonstreren de superioriteit en effectiviteit van MedAgent-Pro, terwijl casestudies de betrouwbaarheid en interpreteerbaarheid verder benadrukken. De code is beschikbaar op https://github.com/jinlab-imvr/MedAgent-Pro.
English
Developing reliable AI systems to assist human clinicians in multi-modal
medical diagnosis has long been a key objective for researchers. Recently,
Multi-modal Large Language Models (MLLMs) have gained significant attention and
achieved success across various domains. With strong reasoning capabilities and
the ability to perform diverse tasks based on user instructions, they hold
great potential for enhancing medical diagnosis. However, directly applying
MLLMs to the medical domain still presents challenges. They lack detailed
perception of visual inputs, limiting their ability to perform quantitative
image analysis, which is crucial for medical diagnostics. Additionally, MLLMs
often exhibit hallucinations and inconsistencies in reasoning, whereas clinical
diagnoses must adhere strictly to established criteria. To address these
challenges, we propose MedAgent-Pro, an evidence-based reasoning agentic system
designed to achieve reliable, explainable, and precise medical diagnoses. This
is accomplished through a hierarchical workflow: at the task level,
knowledge-based reasoning generate reliable diagnostic plans for specific
diseases following retrieved clinical criteria. While at the case level,
multiple tool agents process multi-modal inputs, analyze different indicators
according to the plan, and provide a final diagnosis based on both quantitative
and qualitative evidence. Comprehensive experiments on both 2D and 3D medical
diagnosis tasks demonstrate the superiority and effectiveness of MedAgent-Pro,
while case studies further highlight its reliability and interpretability. The
code is available at https://github.com/jinlab-imvr/MedAgent-Pro.Summary
AI-Generated Summary