MMLongBench: Het effectief en grondig benchmarken van vision-language modellen met lange context
MMLongBench: Benchmarking Long-Context Vision-Language Models Effectively and Thoroughly
May 15, 2025
Auteurs: Zhaowei Wang, Wenhao Yu, Xiyu Ren, Jipeng Zhang, Yu Zhao, Rohit Saxena, Liang Cheng, Ginny Wong, Simon See, Pasquale Minervini, Yangqiu Song, Mark Steedman
cs.AI
Samenvatting
De snelle uitbreiding van contextvensters in grote visueel-taalkundige modellen heeft geleid tot lang-context visueel-taalkundige modellen (LCVLMs), die in staat zijn om honderden afbeeldingen met afgewisselde teksttokens in één enkele voorwaartse doorloop te verwerken. In dit werk introduceren we MMLongBench, de eerste benchmark die een diverse set van lang-context visueel-taalkundige taken omvat, om LCVLMs effectief en grondig te evalueren. MMLongBench bestaat uit 13.331 voorbeelden die vijf verschillende categorieën van downstream taken beslaan, zoals Visual RAG en Many-Shot ICL. Het biedt ook een brede dekking van afbeeldingstypen, waaronder diverse natuurlijke en synthetische afbeeldingen. Om de robuustheid van de modellen voor verschillende invoerlengtes te beoordelen, worden alle voorbeelden geleverd op vijf gestandaardiseerde invoerlengtes (8K-128K tokens) via een cross-modale tokenisatieschema dat visuele patches en teksttokens combineert. Door een grondige benchmarking van 46 closed-source en open-source LCVLMs, bieden we een uitgebreide analyse van de huidige modellen in hun visueel-taalkundige lang-context vermogen. Onze resultaten tonen aan dat: i) prestaties op een enkele taak een zwakke proxy zijn voor het algehele lang-context vermogen; ii) zowel closed-source als open-source modellen uitdagingen ondervinden in lang-context visueel-taalkundige taken, wat wijst op aanzienlijke ruimte voor toekomstige verbetering; iii) modellen met een sterker redeneervermogen de neiging hebben om beter te presteren in lang-context taken. Door brede taakdekking, diverse afbeeldingstypen en rigoureuze lengtecontrole te bieden, biedt MMLongBench de ontbrekende basis voor het diagnosticeren en bevorderen van de volgende generatie LCVLMs.
English
The rapid extension of context windows in large vision-language models has
given rise to long-context vision-language models (LCVLMs), which are capable
of handling hundreds of images with interleaved text tokens in a single forward
pass. In this work, we introduce MMLongBench, the first benchmark covering a
diverse set of long-context vision-language tasks, to evaluate LCVLMs
effectively and thoroughly. MMLongBench is composed of 13,331 examples spanning
five different categories of downstream tasks, such as Visual RAG and Many-Shot
ICL. It also provides broad coverage of image types, including various natural
and synthetic images. To assess the robustness of the models to different input
lengths, all examples are delivered at five standardized input lengths (8K-128K
tokens) via a cross-modal tokenization scheme that combines vision patches and
text tokens. Through a thorough benchmarking of 46 closed-source and
open-source LCVLMs, we provide a comprehensive analysis of the current models'
vision-language long-context ability. Our results show that: i) performance on
a single task is a weak proxy for overall long-context capability; ii) both
closed-source and open-source models face challenges in long-context
vision-language tasks, indicating substantial room for future improvement; iii)
models with stronger reasoning ability tend to exhibit better long-context
performance. By offering wide task coverage, various image types, and rigorous
length control, MMLongBench provides the missing foundation for diagnosing and
advancing the next generation of LCVLMs.Summary
AI-Generated Summary