대규모 시각-언어 모델 평가를 위한 다중 모달 다중 이미지 이해(MMIU)
MMIU: Multimodal Multi-image Understanding for Evaluating Large Vision-Language Models
August 5, 2024
저자: Fanqing Meng, Jin Wang, Chuanhao Li, Quanfeng Lu, Hao Tian, Jiaqi Liao, Xizhou Zhu, Jifeng Dai, Yu Qiao, Ping Luo, Kaipeng Zhang, Wenqi Shao
cs.AI
초록
다중 이미지를 처리하는 능력은 대규모 시각-언어 모델(LVLMs)이 장면에 대해 더 철저하고 세밀한 이해를 개발하는 데 중요합니다. 최근의 다중 이미지 LVLMs는 이러한 요구를 해결하기 시작했습니다. 그러나 그들의 평가는 그들의 발전 속도에 뒤처지고 있습니다. 이 간극을 메우기 위해, 우리는 LVLMs를 평가하기 위해 설계된 포괄적인 평가 스위트인 다중 모달 다중 이미지 이해(MMIU) 벤치마크를 소개합니다. MMIU는 7가지 유형의 다중 이미지 관계, 52가지 작업, 77,000개의 이미지 및 11,000개의 세심하게 선별된 객관식 문제를 포함하여 이와 같은 종류의 가장 포괄적인 벤치마크가 됩니다. 우리는 오픈 소스와 프로프리토리 모델을 모두 포함한 24가지 인기 있는 LVLMs의 평가를 통해, 특히 공간 이해를 필요로 하는 작업에서 다중 이미지 이해에 중요한 도전 과제가 있음을 밝혀내었습니다. GPT-4o와 같은 가장 고급 모델조차도 MMIU에서 55.7%의 정확도만 달성합니다. 다각적인 분석 실험을 통해 우리는 주요 성능 간극과 제한 사항을 식별하여, 미래 모델 및 데이터 개선을 위한 소중한 통찰을 제공합니다. 우리는 MMIU가 LVLM 연구 및 개발의 전선을 발전시키고, 세련된 다중 모달 다중 이미지 사용자 상호작용을 달성하는 방향으로 나아가도록 목표로 합니다.
English
The capability to process multiple images is crucial for Large
Vision-Language Models (LVLMs) to develop a more thorough and nuanced
understanding of a scene. Recent multi-image LVLMs have begun to address this
need. However, their evaluation has not kept pace with their development. To
fill this gap, we introduce the Multimodal Multi-image Understanding (MMIU)
benchmark, a comprehensive evaluation suite designed to assess LVLMs across a
wide range of multi-image tasks. MMIU encompasses 7 types of multi-image
relationships, 52 tasks, 77K images, and 11K meticulously curated
multiple-choice questions, making it the most extensive benchmark of its kind.
Our evaluation of 24 popular LVLMs, including both open-source and proprietary
models, reveals significant challenges in multi-image comprehension,
particularly in tasks involving spatial understanding. Even the most advanced
models, such as GPT-4o, achieve only 55.7% accuracy on MMIU. Through
multi-faceted analytical experiments, we identify key performance gaps and
limitations, providing valuable insights for future model and data
improvements. We aim for MMIU to advance the frontier of LVLM research and
development, moving us toward achieving sophisticated multimodal multi-image
user interactions.Summary
AI-Generated Summary