MMLongBench: Avaliação Abrangente e Eficaz de Modelos Visão-Linguagem de Contexto Longo
MMLongBench: Benchmarking Long-Context Vision-Language Models Effectively and Thoroughly
May 15, 2025
Autores: Zhaowei Wang, Wenhao Yu, Xiyu Ren, Jipeng Zhang, Yu Zhao, Rohit Saxena, Liang Cheng, Ginny Wong, Simon See, Pasquale Minervini, Yangqiu Song, Mark Steedman
cs.AI
Resumo
A rápida expansão das janelas de contexto em grandes modelos visão-linguagem deu origem aos modelos de visão-linguagem de contexto longo (LCVLMs), que são capazes de processar centenas de imagens com tokens de texto intercalados em uma única passagem direta. Neste trabalho, apresentamos o MMLongBench, o primeiro benchmark que abrange um conjunto diversificado de tarefas de visão-linguagem de contexto longo, para avaliar LCVLMs de forma eficaz e abrangente. O MMLongBench é composto por 13.331 exemplos que abrangem cinco categorias diferentes de tarefas subsequentes, como Visual RAG e Many-Shot ICL. Ele também oferece ampla cobertura de tipos de imagem, incluindo diversas imagens naturais e sintéticas. Para avaliar a robustez dos modelos em relação a diferentes comprimentos de entrada, todos os exemplos são fornecidos em cinco comprimentos de entrada padronizados (8K-128K tokens) por meio de um esquema de tokenização multimodal que combina patches visuais e tokens de texto. Por meio de uma avaliação detalhada de 46 LCVLMs de código fechado e aberto, fornecemos uma análise abrangente da capacidade atual dos modelos em tarefas de visão-linguagem de contexto longo. Nossos resultados mostram que: i) o desempenho em uma única tarefa é um indicador fraco da capacidade geral de contexto longo; ii) tanto modelos de código fechado quanto de código aberto enfrentam desafios em tarefas de visão-linguagem de contexto longo, indicando espaço significativo para melhorias futuras; iii) modelos com maior capacidade de raciocínio tendem a exibir melhor desempenho em contexto longo. Ao oferecer ampla cobertura de tarefas, diversos tipos de imagem e controle rigoroso de comprimento, o MMLongBench fornece a base necessária para diagnosticar e avançar a próxima geração de LCVLMs.
English
The rapid extension of context windows in large vision-language models has
given rise to long-context vision-language models (LCVLMs), which are capable
of handling hundreds of images with interleaved text tokens in a single forward
pass. In this work, we introduce MMLongBench, the first benchmark covering a
diverse set of long-context vision-language tasks, to evaluate LCVLMs
effectively and thoroughly. MMLongBench is composed of 13,331 examples spanning
five different categories of downstream tasks, such as Visual RAG and Many-Shot
ICL. It also provides broad coverage of image types, including various natural
and synthetic images. To assess the robustness of the models to different input
lengths, all examples are delivered at five standardized input lengths (8K-128K
tokens) via a cross-modal tokenization scheme that combines vision patches and
text tokens. Through a thorough benchmarking of 46 closed-source and
open-source LCVLMs, we provide a comprehensive analysis of the current models'
vision-language long-context ability. Our results show that: i) performance on
a single task is a weak proxy for overall long-context capability; ii) both
closed-source and open-source models face challenges in long-context
vision-language tasks, indicating substantial room for future improvement; iii)
models with stronger reasoning ability tend to exhibit better long-context
performance. By offering wide task coverage, various image types, and rigorous
length control, MMLongBench provides the missing foundation for diagnosing and
advancing the next generation of LCVLMs.