ChatPaper.aiChatPaper

MedAgent-Pro: К мультимодальной диагностике в медицине на основе доказательств через агентный рабочий процесс с рассуждениями

MedAgent-Pro: Towards Multi-modal Evidence-based Medical Diagnosis via Reasoning Agentic Workflow

March 21, 2025
Авторы: Ziyue Wang, Junde Wu, Chang Han Low, Yueming Jin
cs.AI

Аннотация

Разработка надежных систем искусственного интеллекта для помощи врачам в многомодальной медицинской диагностике долгое время была ключевой целью для исследователей. В последнее время многомодальные большие языковые модели (MLLMs) привлекли значительное внимание и добились успеха в различных областях. Обладая мощными способностями к рассуждению и возможностью выполнять разнообразные задачи на основе инструкций пользователя, они имеют большой потенциал для улучшения медицинской диагностики. Однако прямое применение MLLMs в медицинской области все еще сопряжено с трудностями. Они недостаточно детально воспринимают визуальные данные, что ограничивает их способность выполнять количественный анализ изображений, который имеет решающее значение для медицинской диагностики. Кроме того, MLLMs часто демонстрируют галлюцинации и несоответствия в рассуждениях, тогда как клинические диагнозы должны строго соответствовать установленным критериям. Для решения этих проблем мы предлагаем MedAgent-Pro — систему, основанную на доказательствах и предназначенную для достижения надежной, объяснимой и точной медицинской диагностики. Это реализуется через иерархический рабочий процесс: на уровне задачи рассуждения, основанные на знаниях, генерируют надежные диагностические планы для конкретных заболеваний в соответствии с извлеченными клиническими критериями. На уровне случая несколько инструментальных агентов обрабатывают многомодальные данные, анализируют различные показатели в соответствии с планом и предоставляют окончательный диагноз на основе как количественных, так и качественных доказательств. Комплексные эксперименты на задачах 2D и 3D медицинской диагностики демонстрируют превосходство и эффективность MedAgent-Pro, а кейс-стади дополнительно подчеркивают его надежность и интерпретируемость. Код доступен по адресу https://github.com/jinlab-imvr/MedAgent-Pro.
English
Developing reliable AI systems to assist human clinicians in multi-modal medical diagnosis has long been a key objective for researchers. Recently, Multi-modal Large Language Models (MLLMs) have gained significant attention and achieved success across various domains. With strong reasoning capabilities and the ability to perform diverse tasks based on user instructions, they hold great potential for enhancing medical diagnosis. However, directly applying MLLMs to the medical domain still presents challenges. They lack detailed perception of visual inputs, limiting their ability to perform quantitative image analysis, which is crucial for medical diagnostics. Additionally, MLLMs often exhibit hallucinations and inconsistencies in reasoning, whereas clinical diagnoses must adhere strictly to established criteria. To address these challenges, we propose MedAgent-Pro, an evidence-based reasoning agentic system designed to achieve reliable, explainable, and precise medical diagnoses. This is accomplished through a hierarchical workflow: at the task level, knowledge-based reasoning generate reliable diagnostic plans for specific diseases following retrieved clinical criteria. While at the case level, multiple tool agents process multi-modal inputs, analyze different indicators according to the plan, and provide a final diagnosis based on both quantitative and qualitative evidence. Comprehensive experiments on both 2D and 3D medical diagnosis tasks demonstrate the superiority and effectiveness of MedAgent-Pro, while case studies further highlight its reliability and interpretability. The code is available at https://github.com/jinlab-imvr/MedAgent-Pro.

Summary

AI-Generated Summary

PDF62March 31, 2025