ChatPaper.aiChatPaper

GMAI-MMBench : Un benchmark d'évaluation multimodale complet pour l'IA médicale générale

GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI

August 6, 2024
Auteurs: Pengcheng Chen, Jin Ye, Guoan Wang, Yanjun Li, Zhongying Deng, Wei Li, Tianbin Li, Haodong Duan, Ziyan Huang, Yanzhou Su, Benyou Wang, Shaoting Zhang, Bin Fu, Jianfei Cai, Bohan Zhuang, Eric J Seibel, Junjun He, Yu Qiao
cs.AI

Résumé

Les grands modèles vision-langage (Large Vision-Language Models, LVLMs) sont capables de traiter divers types de données tels que les images, le texte et les signaux physiologiques, et peuvent être appliqués dans de nombreux domaines. Dans le domaine médical, les LVLMs ont un potentiel élevé pour offrir une assistance substantielle au diagnostic et au traitement. Avant cela, il est crucial de développer des benchmarks pour évaluer l'efficacité des LVLMs dans diverses applications médicales. Les benchmarks actuels sont souvent construits à partir de littérature académique spécifique, se concentrant principalement sur un seul domaine et manquant de granularités perceptuelles variées. Ainsi, ils font face à des défis spécifiques, notamment une pertinence clinique limitée, des évaluations incomplètes et un guidage insuffisant pour les LVLMs interactifs. Pour répondre à ces limitations, nous avons développé le GMAI-MMBench, le benchmark général d'IA médicale le plus complet à ce jour, avec une structure de données bien catégorisée et une granularité perceptuelle multiple. Il est construit à partir de 285 jeux de données couvrant 39 modalités d'imagerie médicale, 18 tâches cliniques, 18 départements et 4 granularités perceptuelles dans un format de question-réponse visuelle (Visual Question Answering, VQA). De plus, nous avons mis en œuvre une structure arborescente lexicale qui permet aux utilisateurs de personnaliser les tâches d'évaluation, répondant à divers besoins d'évaluation et soutenant considérablement la recherche et les applications de l'IA médicale. Nous avons évalué 50 LVLMs, et les résultats montrent que même le GPT-4o avancé n'atteint qu'une précision de 52 %, indiquant une marge d'amélioration significative. Par ailleurs, nous avons identifié cinq insuffisances clés dans les LVLMs de pointe actuels qui doivent être résolues pour faire progresser le développement de meilleures applications médicales. Nous croyons que le GMAI-MMBench stimulera la communauté à construire la prochaine génération de LVLMs vers l'IA médicale générale (GMAI). Page du projet : https://uni-medical.github.io/GMAI-MMBench.github.io/
English
Large Vision-Language Models (LVLMs) are capable of handling diverse data types such as imaging, text, and physiological signals, and can be applied in various fields. In the medical field, LVLMs have a high potential to offer substantial assistance for diagnosis and treatment. Before that, it is crucial to develop benchmarks to evaluate LVLMs' effectiveness in various medical applications. Current benchmarks are often built upon specific academic literature, mainly focusing on a single domain, and lacking varying perceptual granularities. Thus, they face specific challenges, including limited clinical relevance, incomplete evaluations, and insufficient guidance for interactive LVLMs. To address these limitations, we developed the GMAI-MMBench, the most comprehensive general medical AI benchmark with well-categorized data structure and multi-perceptual granularity to date. It is constructed from 285 datasets across 39 medical image modalities, 18 clinical-related tasks, 18 departments, and 4 perceptual granularities in a Visual Question Answering (VQA) format. Additionally, we implemented a lexical tree structure that allows users to customize evaluation tasks, accommodating various assessment needs and substantially supporting medical AI research and applications. We evaluated 50 LVLMs, and the results show that even the advanced GPT-4o only achieves an accuracy of 52%, indicating significant room for improvement. Moreover, we identified five key insufficiencies in current cutting-edge LVLMs that need to be addressed to advance the development of better medical applications. We believe that GMAI-MMBench will stimulate the community to build the next generation of LVLMs toward GMAI. Project Page: https://uni-medical.github.io/GMAI-MMBench.github.io/

Summary

AI-Generated Summary

PDF872November 28, 2024