MM-Vet: 통합 능력을 위한 대규모 멀티모달 모델 평가
MM-Vet: Evaluating Large Multimodal Models for Integrated Capabilities
August 4, 2023
저자: Weihao Yu, Zhengyuan Yang, Linjie Li, Jianfeng Wang, Kevin Lin, Zicheng Liu, Xinchao Wang, Lijuan Wang
cs.AI
초록
우리는 복잡한 멀티모달 작업에 대한 대규모 멀티모델(LMM)을 평가하기 위한 벤치마크인 MM-Vet을 제안합니다. 최근의 LMM들은 칠판에 쓰여진 수학 문제를 해결하거나, 뉴스 이미지 속 사건과 유명인에 대해 추론하거나, 시각적 유머를 설명하는 등 다양한 흥미로운 능력을 보여주었습니다. 이러한 모델의 급속한 발전은 평가 벤치마크 개발에 있어 여러 도전 과제를 제기합니다. 주요 문제는 다음과 같습니다: (1) 복잡한 멀티모달 작업을 체계적으로 구조화하고 평가하는 방법; (2) 다양한 질문과 답변 유형에 적합한 평가 지표를 설계하는 방법; (3) 단순한 성능 순위를 넘어 모델에 대한 통찰을 제공하는 방법. 이를 위해, 우리는 복잡한 작업을 해결하는 흥미로운 능력이 종종 다양한 핵심 시각-언어(VL) 능력을 통합할 수 있는 일반 모델에 의해 달성된다는 통찰을 바탕으로 MM-Vet을 설계했습니다. MM-Vet은 6가지 핵심 VL 능력을 정의하고, 이러한 능력 조합에서 도출된 16가지 통합 사례를 검토합니다. 평가 지표로서, 우리는 개방형 출력을 평가하기 위한 LLM 기반 평가자를 제안합니다. 이 평가자는 다양한 질문 유형과 답변 스타일을 아우르는 평가를 가능하게 하여 통일된 점수 체계를 제공합니다. 우리는 MM-Vet을 통해 대표적인 LMM들을 평가하며, 다양한 LMM 시스템 패러다임과 모델의 능력에 대한 통찰을 제공합니다. 코드와 데이터는 https://github.com/yuweihao/MM-Vet에서 확인할 수 있습니다.
English
We propose MM-Vet, an evaluation benchmark that examines large multimodal
models (LMMs) on complicated multimodal tasks. Recent LMMs have shown various
intriguing abilities, such as solving math problems written on the blackboard,
reasoning about events and celebrities in news images, and explaining visual
jokes. Rapid model advancements pose challenges to evaluation benchmark
development. Problems include: (1) How to systematically structure and evaluate
the complicated multimodal tasks; (2) How to design evaluation metrics that
work well across question and answer types; and (3) How to give model insights
beyond a simple performance ranking. To this end, we present MM-Vet, designed
based on the insight that the intriguing ability to solve complicated tasks is
often achieved by a generalist model being able to integrate different core
vision-language (VL) capabilities. MM-Vet defines 6 core VL capabilities and
examines the 16 integrations of interest derived from the capability
combination. For evaluation metrics, we propose an LLM-based evaluator for
open-ended outputs. The evaluator enables the evaluation across different
question types and answer styles, resulting in a unified scoring metric. We
evaluate representative LMMs on MM-Vet, providing insights into the
capabilities of different LMM system paradigms and models. Code and data are
available at https://github.com/yuweihao/MM-Vet.Summary
AI-Generated Summary