MMLongBench : Évaluation approfondie et efficace des modèles vision-langage à contexte long
MMLongBench: Benchmarking Long-Context Vision-Language Models Effectively and Thoroughly
May 15, 2025
Auteurs: Zhaowei Wang, Wenhao Yu, Xiyu Ren, Jipeng Zhang, Yu Zhao, Rohit Saxena, Liang Cheng, Ginny Wong, Simon See, Pasquale Minervini, Yangqiu Song, Mark Steedman
cs.AI
Résumé
L'extension rapide des fenêtres contextuelles dans les grands modèles vision-langage a donné naissance aux modèles vision-langage à contexte long (LCVLMs), capables de traiter des centaines d'images avec des tokens de texte entrelacés en une seule passe avant. Dans ce travail, nous introduisons MMLongBench, le premier benchmark couvrant un ensemble diversifié de tâches vision-langage à contexte long, pour évaluer les LCVLMs de manière efficace et approfondie. MMLongBench est composé de 13 331 exemples répartis en cinq catégories différentes de tâches en aval, telles que le RAG visuel et l'ICL Many-Shot. Il offre également une couverture large des types d'images, incluant diverses images naturelles et synthétiques. Pour évaluer la robustesse des modèles à différentes longueurs d'entrée, tous les exemples sont fournis à cinq longueurs d'entrée standardisées (8K-128K tokens) via un schéma de tokenisation cross-modal combinant des patches visuels et des tokens de texte. À travers un benchmarking approfondi de 46 LCVLMs propriétaires et open-source, nous fournissons une analyse complète des capacités actuelles des modèles en contexte long vision-langage. Nos résultats montrent que : i) la performance sur une seule tâche est un faible indicateur de la capacité globale en contexte long ; ii) les modèles propriétaires et open-source rencontrent des difficultés dans les tâches vision-langage à contexte long, indiquant une marge substantielle d'amélioration future ; iii) les modèles dotés d'une meilleure capacité de raisonnement tendent à afficher de meilleures performances en contexte long. En offrant une large couverture de tâches, divers types d'images et un contrôle rigoureux de la longueur, MMLongBench fournit la base manquante pour diagnostiquer et faire progresser la prochaine génération de LCVLMs.
English
The rapid extension of context windows in large vision-language models has
given rise to long-context vision-language models (LCVLMs), which are capable
of handling hundreds of images with interleaved text tokens in a single forward
pass. In this work, we introduce MMLongBench, the first benchmark covering a
diverse set of long-context vision-language tasks, to evaluate LCVLMs
effectively and thoroughly. MMLongBench is composed of 13,331 examples spanning
five different categories of downstream tasks, such as Visual RAG and Many-Shot
ICL. It also provides broad coverage of image types, including various natural
and synthetic images. To assess the robustness of the models to different input
lengths, all examples are delivered at five standardized input lengths (8K-128K
tokens) via a cross-modal tokenization scheme that combines vision patches and
text tokens. Through a thorough benchmarking of 46 closed-source and
open-source LCVLMs, we provide a comprehensive analysis of the current models'
vision-language long-context ability. Our results show that: i) performance on
a single task is a weak proxy for overall long-context capability; ii) both
closed-source and open-source models face challenges in long-context
vision-language tasks, indicating substantial room for future improvement; iii)
models with stronger reasoning ability tend to exhibit better long-context
performance. By offering wide task coverage, various image types, and rigorous
length control, MMLongBench provides the missing foundation for diagnosing and
advancing the next generation of LCVLMs.Summary
AI-Generated Summary