ChatPaper.aiChatPaper

MedAgent-Pro : Vers un diagnostic médical basé sur des preuves multimodales via un flux de travail agentif de raisonnement

MedAgent-Pro: Towards Multi-modal Evidence-based Medical Diagnosis via Reasoning Agentic Workflow

March 21, 2025
Auteurs: Ziyue Wang, Junde Wu, Chang Han Low, Yueming Jin
cs.AI

Résumé

Le développement de systèmes d'IA fiables pour assister les cliniciens humains dans le diagnostic médical multimodal a longtemps été un objectif clé pour les chercheurs. Récemment, les modèles de langage multimodal de grande envergure (MLLMs) ont suscité une attention considérable et ont rencontré des succès dans divers domaines. Dotés de solides capacités de raisonnement et de la capacité à exécuter des tâches variées sur instruction de l'utilisateur, ils présentent un potentiel important pour améliorer le diagnostic médical. Cependant, l'application directe des MLLMs au domaine médical reste confrontée à des défis. Ils manquent d'une perception détaillée des entrées visuelles, limitant leur capacité à effectuer des analyses quantitatives d'images, pourtant cruciales pour le diagnostic médical. De plus, les MLLMs présentent souvent des hallucinations et des incohérences dans leur raisonnement, alors que les diagnostics cliniques doivent strictement respecter des critères établis. Pour relever ces défis, nous proposons MedAgent-Pro, un système agentique de raisonnement fondé sur des preuves, conçu pour atteindre des diagnostics médicaux fiables, explicables et précis. Cela est réalisé grâce à un flux de travail hiérarchique : au niveau des tâches, un raisonnement basé sur les connaissances génère des plans de diagnostic fiables pour des maladies spécifiques en suivant des critères cliniques récupérés. Au niveau des cas, plusieurs agents outils traitent les entrées multimodales, analysent différents indicateurs selon le plan établi, et fournissent un diagnostic final basé sur des preuves quantitatives et qualitatives. Des expériences approfondies sur des tâches de diagnostic médical en 2D et 3D démontrent la supériorité et l'efficacité de MedAgent-Pro, tandis que des études de cas mettent en avant sa fiabilité et son interprétabilité. Le code est disponible à l'adresse https://github.com/jinlab-imvr/MedAgent-Pro.
English
Developing reliable AI systems to assist human clinicians in multi-modal medical diagnosis has long been a key objective for researchers. Recently, Multi-modal Large Language Models (MLLMs) have gained significant attention and achieved success across various domains. With strong reasoning capabilities and the ability to perform diverse tasks based on user instructions, they hold great potential for enhancing medical diagnosis. However, directly applying MLLMs to the medical domain still presents challenges. They lack detailed perception of visual inputs, limiting their ability to perform quantitative image analysis, which is crucial for medical diagnostics. Additionally, MLLMs often exhibit hallucinations and inconsistencies in reasoning, whereas clinical diagnoses must adhere strictly to established criteria. To address these challenges, we propose MedAgent-Pro, an evidence-based reasoning agentic system designed to achieve reliable, explainable, and precise medical diagnoses. This is accomplished through a hierarchical workflow: at the task level, knowledge-based reasoning generate reliable diagnostic plans for specific diseases following retrieved clinical criteria. While at the case level, multiple tool agents process multi-modal inputs, analyze different indicators according to the plan, and provide a final diagnosis based on both quantitative and qualitative evidence. Comprehensive experiments on both 2D and 3D medical diagnosis tasks demonstrate the superiority and effectiveness of MedAgent-Pro, while case studies further highlight its reliability and interpretability. The code is available at https://github.com/jinlab-imvr/MedAgent-Pro.

Summary

AI-Generated Summary

PDF62March 31, 2025