MMLongBench: Het effectief en grondig benchmarken van vision-language modellen met lange context

Samenvatting

De snelle uitbreiding van contextvensters in grote visueel-taalkundige modellen heeft geleid tot lang-context visueel-taalkundige modellen (LCVLMs), die in staat zijn om honderden afbeeldingen met afgewisselde teksttokens in één enkele voorwaartse doorloop te verwerken. In dit werk introduceren we MMLongBench, de eerste benchmark die een diverse set van lang-context visueel-taalkundige taken omvat, om LCVLMs effectief en grondig te evalueren. MMLongBench bestaat uit 13.331 voorbeelden die vijf verschillende categorieën van downstream taken beslaan, zoals Visual RAG en Many-Shot ICL. Het biedt ook een brede dekking van afbeeldingstypen, waaronder diverse natuurlijke en synthetische afbeeldingen. Om de robuustheid van de modellen voor verschillende invoerlengtes te beoordelen, worden alle voorbeelden geleverd op vijf gestandaardiseerde invoerlengtes (8K-128K tokens) via een cross-modale tokenisatieschema dat visuele patches en teksttokens combineert. Door een grondige benchmarking van 46 closed-source en open-source LCVLMs, bieden we een uitgebreide analyse van de huidige modellen in hun visueel-taalkundige lang-context vermogen. Onze resultaten tonen aan dat: i) prestaties op een enkele taak een zwakke proxy zijn voor het algehele lang-context vermogen; ii) zowel closed-source als open-source modellen uitdagingen ondervinden in lang-context visueel-taalkundige taken, wat wijst op aanzienlijke ruimte voor toekomstige verbetering; iii) modellen met een sterker redeneervermogen de neiging hebben om beter te presteren in lang-context taken. Door brede taakdekking, diverse afbeeldingstypen en rigoureuze lengtecontrole te bieden, biedt MMLongBench de ontbrekende basis voor het diagnosticeren en bevorderen van de volgende generatie LCVLMs.

English

The rapid extension of context windows in large vision-language models has given rise to long-context vision-language models (LCVLMs), which are capable of handling hundreds of images with interleaved text tokens in a single forward pass. In this work, we introduce MMLongBench, the first benchmark covering a diverse set of long-context vision-language tasks, to evaluate LCVLMs effectively and thoroughly. MMLongBench is composed of 13,331 examples spanning five different categories of downstream tasks, such as Visual RAG and Many-Shot ICL. It also provides broad coverage of image types, including various natural and synthetic images. To assess the robustness of the models to different input lengths, all examples are delivered at five standardized input lengths (8K-128K tokens) via a cross-modal tokenization scheme that combines vision patches and text tokens. Through a thorough benchmarking of 46 closed-source and open-source LCVLMs, we provide a comprehensive analysis of the current models' vision-language long-context ability. Our results show that: i) performance on a single task is a weak proxy for overall long-context capability; ii) both closed-source and open-source models face challenges in long-context vision-language tasks, indicating substantial room for future improvement; iii) models with stronger reasoning ability tend to exhibit better long-context performance. By offering wide task coverage, various image types, and rigorous length control, MMLongBench provides the missing foundation for diagnosing and advancing the next generation of LCVLMs.

MMLongBench: Het effectief en grondig benchmarken van vision-language modellen met lange context

MMLongBench: Benchmarking Long-Context Vision-Language Models Effectively and Thoroughly

Samenvatting

Summary

Support

Support