ChatPaper.aiChatPaper

MM-Vet v2: 통합 능력을 평가하기 위한 도전적인 대형 멀티모달 모델 벤치마크

MM-Vet v2: A Challenging Benchmark to Evaluate Large Multimodal Models for Integrated Capabilities

August 1, 2024
저자: Weihao Yu, Zhengyuan Yang, Linfeng Ren, Linjie Li, Jianfeng Wang, Kevin Lin, Chung-Ching Lin, Zicheng Liu, Lijuan Wang, Xinchao Wang
cs.AI

초록

MM-Vet은 통합 능력을 평가하기 위한 개방형 시각-언어 질문을 통해 대규모 멀티모달 모델 평가에서 가장 널리 사용되는 벤치마크 중 하나가 되었습니다. MM-Vet은 인식, 지식, 공간 인식, 언어 생성, OCR, 수학 등 여섯 가지 핵심 시각-언어(VL) 능력을 평가합니다. 그러나 이 벤치마크의 질문 형식은 단일 이미지-텍스트 쌍으로 제한되어 있어, 실제 시나리오에서 흔히 나타나는 이미지와 텍스트가 교차된 시퀀스를 다루지 못하는 한계가 있습니다. 이러한 한계를 해결하기 위해, 우리는 "이미지-텍스트 시퀀스 이해"라는 새로운 VL 능력을 포함한 MM-Vet v2를 소개합니다. 이는 모델이 VL 시퀀스를 처리하는 능력을 평가합니다. 또한, 평가 샘플의 높은 품질을 유지하면서 평가 세트의 크기를 더욱 확장했습니다. MM-Vet v2를 사용하여 대규모 멀티모달 모델을 벤치마킹한 결과, Claude 3.5 Sonnet이 71.8점으로 GPT-4o의 71.0점을 약간 앞서며 최고의 모델로 나타났습니다. 오픈 가중치 모델 중에서는 InternVL2-Llama3-76B가 68.4점으로 선두를 달렸습니다.
English
MM-Vet, with open-ended vision-language questions targeting at evaluating integrated capabilities, has become one of the most popular benchmarks for large multimodal model evaluation. MM-Vet assesses six core vision-language (VL) capabilities: recognition, knowledge, spatial awareness, language generation, OCR, and math. However, its question format is restricted to single image-text pairs, lacking the interleaved image and text sequences prevalent in real-world scenarios. To address this limitation, we introduce MM-Vet v2, which includes a new VL capability called "image-text sequence understanding", evaluating models' ability to process VL sequences. Furthermore, we maintain the high quality of evaluation samples while further expanding the evaluation set size. Using MM-Vet v2 to benchmark large multimodal models, we found that Claude 3.5 Sonnet is the best model with a score of 71.8, slightly outperforming GPT-4o which scored 71.0. Among open-weight models, InternVL2-Llama3-76B leads with a score of 68.4.

Summary

AI-Generated Summary

PDF149November 28, 2024