MMLongBench: Evaluación Integral y Efectiva de Modelos de Visión-Lenguaje con Contexto Extendido
MMLongBench: Benchmarking Long-Context Vision-Language Models Effectively and Thoroughly
May 15, 2025
Autores: Zhaowei Wang, Wenhao Yu, Xiyu Ren, Jipeng Zhang, Yu Zhao, Rohit Saxena, Liang Cheng, Ginny Wong, Simon See, Pasquale Minervini, Yangqiu Song, Mark Steedman
cs.AI
Resumen
La rápida extensión de ventanas de contexto en los grandes modelos de visión y lenguaje ha dado lugar a los modelos de visión y lenguaje de contexto largo (LCVLMs, por sus siglas en inglés), los cuales son capaces de manejar cientos de imágenes con tokens de texto intercalados en una sola pasada hacia adelante. En este trabajo, presentamos MMLongBench, el primer punto de referencia que cubre un conjunto diverso de tareas de visión y lenguaje de contexto largo, para evaluar los LCVLMs de manera efectiva y exhaustiva. MMLongBench está compuesto por 13,331 ejemplos que abarcan cinco categorías diferentes de tareas posteriores, como Visual RAG y Many-Shot ICL. También ofrece una amplia cobertura de tipos de imágenes, incluyendo diversas imágenes naturales y sintéticas. Para evaluar la robustez de los modelos frente a diferentes longitudes de entrada, todos los ejemplos se presentan en cinco longitudes de entrada estandarizadas (8K-128K tokens) mediante un esquema de tokenización multimodal que combina parches de visión y tokens de texto. A través de una evaluación exhaustiva de 46 LCVLMs, tanto de código cerrado como abierto, proporcionamos un análisis completo de la capacidad actual de los modelos en tareas de visión y lenguaje de contexto largo. Nuestros resultados muestran que: i) el rendimiento en una sola tarea es un indicador débil de la capacidad general de contexto largo; ii) tanto los modelos de código cerrado como los de código abierto enfrentan desafíos en tareas de visión y lenguaje de contexto largo, lo que indica un margen sustancial para futuras mejoras; iii) los modelos con mayor capacidad de razonamiento tienden a exhibir un mejor rendimiento en contexto largo. Al ofrecer una amplia cobertura de tareas, diversos tipos de imágenes y un control riguroso de la longitud, MMLongBench proporciona la base faltante para diagnosticar y avanzar la próxima generación de LCVLMs.
English
The rapid extension of context windows in large vision-language models has
given rise to long-context vision-language models (LCVLMs), which are capable
of handling hundreds of images with interleaved text tokens in a single forward
pass. In this work, we introduce MMLongBench, the first benchmark covering a
diverse set of long-context vision-language tasks, to evaluate LCVLMs
effectively and thoroughly. MMLongBench is composed of 13,331 examples spanning
five different categories of downstream tasks, such as Visual RAG and Many-Shot
ICL. It also provides broad coverage of image types, including various natural
and synthetic images. To assess the robustness of the models to different input
lengths, all examples are delivered at five standardized input lengths (8K-128K
tokens) via a cross-modal tokenization scheme that combines vision patches and
text tokens. Through a thorough benchmarking of 46 closed-source and
open-source LCVLMs, we provide a comprehensive analysis of the current models'
vision-language long-context ability. Our results show that: i) performance on
a single task is a weak proxy for overall long-context capability; ii) both
closed-source and open-source models face challenges in long-context
vision-language tasks, indicating substantial room for future improvement; iii)
models with stronger reasoning ability tend to exhibit better long-context
performance. By offering wide task coverage, various image types, and rigorous
length control, MMLongBench provides the missing foundation for diagnosing and
advancing the next generation of LCVLMs.Summary
AI-Generated Summary