ChatPaper.aiChatPaper

MMLongBench: 장문맥 비전-언어 모델의 효과적이고 철저한 벤치마킹

MMLongBench: Benchmarking Long-Context Vision-Language Models Effectively and Thoroughly

May 15, 2025
저자: Zhaowei Wang, Wenhao Yu, Xiyu Ren, Jipeng Zhang, Yu Zhao, Rohit Saxena, Liang Cheng, Ginny Wong, Simon See, Pasquale Minervini, Yangqiu Song, Mark Steedman
cs.AI

초록

대규모 시각-언어 모델의 컨텍스트 창 확장이 급속히 진행되면서, 수백 장의 이미지와 교차된 텍스트 토큰을 단일 순방향 전달로 처리할 수 있는 장문 컨텍스트 시각-언어 모델(LCVLMs)이 등장하였다. 본 연구에서는 LCVLMs를 효과적이고 철저히 평가하기 위해 다양한 장문 컨텍스트 시각-언어 작업을 포괄하는 첫 번째 벤치마크인 MMLongBench를 소개한다. MMLongBench는 Visual RAG 및 Many-Shot ICL과 같은 다섯 가지 하위 작업 범주에 걸친 13,331개의 예제로 구성되어 있으며, 다양한 자연 및 합성 이미지를 포함한 광범위한 이미지 유형을 제공한다. 모델의 다양한 입력 길이에 대한 견고성을 평가하기 위해, 모든 예제는 시각 패치와 텍스트 토큰을 결합한 교차 모달 토큰화 방식을 통해 다섯 가지 표준화된 입력 길이(8K-128K 토큰)로 제공된다. 46개의 클로즈드소스 및 오픈소스 LCVLMs에 대한 철저한 벤치마킹을 통해, 현재 모델들의 시각-언어 장문 컨텍스트 능력에 대한 포괄적인 분석을 제공한다. 우리의 결과는 다음과 같다: i) 단일 작업에서의 성능은 전체 장문 컨텍스트 능력을 대표하기에 부적절하다; ii) 클로즈드소스 및 오픈소스 모델 모두 장문 컨텍스트 시각-언어 작업에서 어려움을 겪으며, 이는 향후 개선의 여지가 크다는 것을 나타낸다; iii) 더 강력한 추론 능력을 가진 모델은 더 나은 장문 컨텍스트 성능을 보이는 경향이 있다. 광범위한 작업 범위, 다양한 이미지 유형, 엄격한 길이 제어를 통해, MMLongBench는 차세대 LCVLMs의 진단과 발전을 위한 필수적인 기반을 제공한다.
English
The rapid extension of context windows in large vision-language models has given rise to long-context vision-language models (LCVLMs), which are capable of handling hundreds of images with interleaved text tokens in a single forward pass. In this work, we introduce MMLongBench, the first benchmark covering a diverse set of long-context vision-language tasks, to evaluate LCVLMs effectively and thoroughly. MMLongBench is composed of 13,331 examples spanning five different categories of downstream tasks, such as Visual RAG and Many-Shot ICL. It also provides broad coverage of image types, including various natural and synthetic images. To assess the robustness of the models to different input lengths, all examples are delivered at five standardized input lengths (8K-128K tokens) via a cross-modal tokenization scheme that combines vision patches and text tokens. Through a thorough benchmarking of 46 closed-source and open-source LCVLMs, we provide a comprehensive analysis of the current models' vision-language long-context ability. Our results show that: i) performance on a single task is a weak proxy for overall long-context capability; ii) both closed-source and open-source models face challenges in long-context vision-language tasks, indicating substantial room for future improvement; iii) models with stronger reasoning ability tend to exhibit better long-context performance. By offering wide task coverage, various image types, and rigorous length control, MMLongBench provides the missing foundation for diagnosing and advancing the next generation of LCVLMs.

Summary

AI-Generated Summary

PDF463May 19, 2025