MIBench: 다중 이미지에 대한 멀티모달 대형 언어 모델 평가
MIBench: Evaluating Multimodal Large Language Models over Multiple Images
July 21, 2024
저자: Haowei Liu, Xi Zhang, Haiyang Xu, Yaya Shi, Chaoya Jiang, Ming Yan, Ji Zhang, Fei Huang, Chunfeng Yuan, Bing Li, Weiming Hu
cs.AI
초록
LLM(Large Language Model)의 강력한 성능을 기반으로, 최근 다양한 멀티모달 대형 언어 모델(MLLM)이 여러 벤치마크에서 다양한 시각-언어 작업에서 뛰어난 성과를 달성했습니다. 그러나 기존의 대부분의 MLLM과 벤치마크는 주로 단일 이미지 입력 시나리오에 초점을 맞추고 있어, 현실적인 다중 이미지를 처리할 때 MLLM의 성능은 아직 충분히 탐구되지 않은 상태입니다. 일부 벤치마크가 다중 이미지를 고려하긴 했지만, 그 평가 차원과 샘플은 매우 제한적입니다. 따라서 본 논문에서는 다중 이미지 시나리오에서 MLLM의 세밀한 능력을 종합적으로 평가하기 위해 새로운 벤치마크인 MIBench를 제안합니다. 구체적으로, MIBench는 다중 이미지 능력을 세 가지 시나리오로 분류합니다: 다중 이미지 지시(MII), 멀티모달 지식 탐색(MKS), 그리고 멀티모달 인컨텍스트 학습(MIC). 또한 13개의 작업과 총 13K의 주석이 달린 샘플을 구성했습니다. 데이터 구축 과정에서, MII와 MKS의 경우 수동 주석에서 정답 옵션을 추출하고 도전적인 오답 선택지를 만들어 다중 선택 질문을 얻었습니다. MIC의 경우, 심층 평가를 위해 네 가지 하위 작업을 설정하고 원본 데이터셋을 인컨텍스트 학습 형식으로 변환했습니다. 우리는 제안된 MIBench에서 여러 오픈소스 MLLM과 클로즈드소스 MLLM을 평가했습니다. 결과는 현재 모델들이 단일 이미지 작업에서는 뛰어나지만, 다중 이미지 입력에 직면했을 때 혼란스러운 세밀한 인지, 제한된 다중 이미지 추론, 그리고 불안정한 인컨텍스트 학습과 같은 상당한 단점을 보인다는 것을 보여줍니다. MIBench의 주석 데이터는 https://huggingface.co/datasets/StarBottle/MIBench에서 확인할 수 있습니다.
English
Built on the power of LLMs, numerous multimodal large language models (MLLMs)
have recently achieved remarkable performance on various vision-language tasks
across multiple benchmarks. However, most existing MLLMs and benchmarks
primarily focus on single-image input scenarios, leaving the performance of
MLLMs when handling realistic multiple images remain underexplored. Although a
few benchmarks consider multiple images, their evaluation dimensions and
samples are very limited. Therefore, in this paper, we propose a new benchmark
MIBench, to comprehensively evaluate fine-grained abilities of MLLMs in
multi-image scenarios. Specifically, MIBench categorizes the multi-image
abilities into three scenarios: multi-image instruction (MII), multimodal
knowledge-seeking (MKS) and multimodal in-context learning (MIC), and
constructs 13 tasks with a total of 13K annotated samples. During data
construction, for MII and MKS, we extract correct options from manual
annotations and create challenging distractors to obtain multiple-choice
questions. For MIC, to enable an in-depth evaluation, we set four sub-tasks and
transform the original datasets into in-context learning formats. We evaluate
several open-source MLLMs and close-source MLLMs on the proposed MIBench. The
results reveal that although current models excel in single-image tasks, they
exhibit significant shortcomings when faced with multi-image inputs, such as
confused fine-grained perception, limited multi-image reasoning, and unstable
in-context learning. The annotated data in MIBench is available at
https://huggingface.co/datasets/StarBottle/MIBench.Summary
AI-Generated Summary