GMAI-MMBench: 일반 의료 AI를 향한 포괄적인 멀티모달 평가 벤치마크
GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI
August 6, 2024
저자: Pengcheng Chen, Jin Ye, Guoan Wang, Yanjun Li, Zhongying Deng, Wei Li, Tianbin Li, Haodong Duan, Ziyan Huang, Yanzhou Su, Benyou Wang, Shaoting Zhang, Bin Fu, Jianfei Cai, Bohan Zhuang, Eric J Seibel, Junjun He, Yu Qiao
cs.AI
초록
대형 비전-언어 모델(LVLMs)은 이미지, 텍스트 및 생리 신호와 같은 다양한 데이터 유형을 처리할 수 있으며 다양한 분야에 적용할 수 있습니다. 의료 분야에서 LVLMs는 진단 및 치료에 상당한 지원을 제공할 수 있는 높은 잠재력을 가지고 있습니다. 그러나 그 전에, LVLMs의 효과를 다양한 의료 응용 분야에서 평가하기 위한 벤치마크를 개발하는 것이 중요합니다. 현재의 벤치마크는 주로 특정 학술 문헌을 기반으로 구축되어 있으며 주로 단일 도메인에 초점을 맞추고 다양한 지각적 세분성이 부족합니다. 따라서, 이러한 한계를 해결하기 위해 우리는 GMAI-MMBench를 개발했습니다. 이는 현재까지 가장 포괄적인 일반 의료 AI 벤치마크로, 잘 분류된 데이터 구조와 다중 지각적 세분성을 갖추고 있습니다. 이는 285개의 데이터셋을 포함하며 39가지 의료 이미지 모달리티, 18가지 임상 관련 작업, 18개 부서 및 4가지 지각적 세분성으로 구성되어 있습니다. 또한 사용자가 평가 작업을 사용자 정의할 수 있는 어휘 트리 구조를 구현하여 다양한 평가 요구를 수용하고 의료 AI 연구 및 응용을 크게 지원합니다. 우리는 50개의 LVLMs를 평가했으며 결과는 심지어 고급 GPT-4o도 52%의 정확도만 달성한다는 것을 보여줍니다. 이는 개선할 여지가 많다는 것을 나타냅니다. 또한, 현재 최첨단 LVLMs의 다섯 가지 주요 미흡 사항을 확인했으며, 더 나은 의료 응용 프로그램 개발을 위해 해결해야 할 것으로 판단됩니다. 우리는 GMAI-MMBench가 커뮤니티에 다음 세대의 LVLMs를 GMAI 방향으로 구축하도록 자극할 것으로 믿습니다.
프로젝트 페이지: https://uni-medical.github.io/GMAI-MMBench.github.io/
English
Large Vision-Language Models (LVLMs) are capable of handling diverse data
types such as imaging, text, and physiological signals, and can be applied in
various fields. In the medical field, LVLMs have a high potential to offer
substantial assistance for diagnosis and treatment. Before that, it is crucial
to develop benchmarks to evaluate LVLMs' effectiveness in various medical
applications. Current benchmarks are often built upon specific academic
literature, mainly focusing on a single domain, and lacking varying perceptual
granularities. Thus, they face specific challenges, including limited clinical
relevance, incomplete evaluations, and insufficient guidance for interactive
LVLMs. To address these limitations, we developed the GMAI-MMBench, the most
comprehensive general medical AI benchmark with well-categorized data structure
and multi-perceptual granularity to date. It is constructed from 285 datasets
across 39 medical image modalities, 18 clinical-related tasks, 18 departments,
and 4 perceptual granularities in a Visual Question Answering (VQA) format.
Additionally, we implemented a lexical tree structure that allows users to
customize evaluation tasks, accommodating various assessment needs and
substantially supporting medical AI research and applications. We evaluated 50
LVLMs, and the results show that even the advanced GPT-4o only achieves an
accuracy of 52%, indicating significant room for improvement. Moreover, we
identified five key insufficiencies in current cutting-edge LVLMs that need to
be addressed to advance the development of better medical applications. We
believe that GMAI-MMBench will stimulate the community to build the next
generation of LVLMs toward GMAI.
Project Page: https://uni-medical.github.io/GMAI-MMBench.github.io/Summary
AI-Generated Summary