MMLongBench: Valutazione Efficace e Completa dei Modelli Visione-Linguaggio con Contesti Lunghi
MMLongBench: Benchmarking Long-Context Vision-Language Models Effectively and Thoroughly
May 15, 2025
Autori: Zhaowei Wang, Wenhao Yu, Xiyu Ren, Jipeng Zhang, Yu Zhao, Rohit Saxena, Liang Cheng, Ginny Wong, Simon See, Pasquale Minervini, Yangqiu Song, Mark Steedman
cs.AI
Abstract
La rapida estensione delle finestre di contesto nei grandi modelli visione-linguaggio ha dato origine ai modelli visione-linguaggio a lungo contesto (LCVLMs), in grado di gestire centinaia di immagini con token di testo intervallati in un singolo passaggio in avanti. In questo lavoro, introduciamo MMLongBench, il primo benchmark che copre un insieme diversificato di task visione-linguaggio a lungo contesto, per valutare in modo efficace e approfondito gli LCVLMs. MMLongBench è composto da 13.331 esempi che abbracciano cinque diverse categorie di task downstream, come Visual RAG e Many-Shot ICL. Offre inoltre un'ampia copertura di tipi di immagini, inclusi vari tipi di immagini naturali e sintetiche. Per valutare la robustezza dei modelli rispetto a diverse lunghezze di input, tutti gli esempi vengono forniti a cinque lunghezze di input standardizzate (8K-128K token) attraverso uno schema di tokenizzazione cross-modale che combina patch visive e token di testo. Attraverso un benchmarking approfondito di 46 LCVLMs sia closed-source che open-source, forniamo un'analisi completa della capacità attuale dei modelli nel contesto visione-linguaggio a lungo termine. I nostri risultati mostrano che: i) le prestazioni su un singolo task sono un debole indicatore della capacità complessiva a lungo contesto; ii) sia i modelli closed-source che open-source affrontano sfide nei task visione-linguaggio a lungo contesto, indicando un ampio margine di miglioramento futuro; iii) i modelli con una maggiore capacità di ragionamento tendono a mostrare migliori prestazioni a lungo contesto. Offrendo un'ampia copertura di task, vari tipi di immagini e un rigoroso controllo della lunghezza, MMLongBench fornisce le basi mancanti per diagnosticare e far progredire la prossima generazione di LCVLMs.
English
The rapid extension of context windows in large vision-language models has
given rise to long-context vision-language models (LCVLMs), which are capable
of handling hundreds of images with interleaved text tokens in a single forward
pass. In this work, we introduce MMLongBench, the first benchmark covering a
diverse set of long-context vision-language tasks, to evaluate LCVLMs
effectively and thoroughly. MMLongBench is composed of 13,331 examples spanning
five different categories of downstream tasks, such as Visual RAG and Many-Shot
ICL. It also provides broad coverage of image types, including various natural
and synthetic images. To assess the robustness of the models to different input
lengths, all examples are delivered at five standardized input lengths (8K-128K
tokens) via a cross-modal tokenization scheme that combines vision patches and
text tokens. Through a thorough benchmarking of 46 closed-source and
open-source LCVLMs, we provide a comprehensive analysis of the current models'
vision-language long-context ability. Our results show that: i) performance on
a single task is a weak proxy for overall long-context capability; ii) both
closed-source and open-source models face challenges in long-context
vision-language tasks, indicating substantial room for future improvement; iii)
models with stronger reasoning ability tend to exhibit better long-context
performance. By offering wide task coverage, various image types, and rigorous
length control, MMLongBench provides the missing foundation for diagnosing and
advancing the next generation of LCVLMs.