MMLongBench: Комплексное и эффективное тестирование моделей обработки длинных контекстов в области зрения и языка
MMLongBench: Benchmarking Long-Context Vision-Language Models Effectively and Thoroughly
May 15, 2025
Авторы: Zhaowei Wang, Wenhao Yu, Xiyu Ren, Jipeng Zhang, Yu Zhao, Rohit Saxena, Liang Cheng, Ginny Wong, Simon See, Pasquale Minervini, Yangqiu Song, Mark Steedman
cs.AI
Аннотация
Быстрое расширение контекстных окон в крупных моделях, работающих с визуальными и текстовыми данными, привело к появлению моделей с длинным контекстом (LCVLMs), способных обрабатывать сотни изображений с чередующимися текстовыми токенами за один прямой проход. В данной работе мы представляем MMLongBench — первый бенчмарк, охватывающий разнообразный набор задач с длинным контекстом для оценки LCVLMs эффективно и всесторонне. MMLongBench состоит из 13 331 примера, охватывающего пять различных категорий задач, таких как Visual RAG и Many-Shot ICL. Он также обеспечивает широкий охват типов изображений, включая различные натуральные и синтетические изображения. Для оценки устойчивости моделей к разной длине входных данных все примеры представлены в пяти стандартизированных длинах (от 8K до 128K токенов) с использованием кросс-модальной схемы токенизации, объединяющей визуальные патчи и текстовые токены. Проведя тщательное тестирование 46 закрытых и открытых LCVLMs, мы предоставляем всесторонний анализ текущих способностей моделей в задачах с длинным контекстом. Наши результаты показывают, что: i) производительность на одной задаче является слабым индикатором общей способности к длинному контексту; ii) как закрытые, так и открытые модели сталкиваются с трудностями в задачах с длинным контекстом, что указывает на значительный потенциал для улучшения; iii) модели с более сильными способностями к рассуждению, как правило, демонстрируют лучшую производительность в длинном контексте. Предоставляя широкий охват задач, разнообразие типов изображений и строгий контроль длины, MMLongBench создает недостающую основу для диагностики и развития следующего поколения LCVLMs.
English
The rapid extension of context windows in large vision-language models has
given rise to long-context vision-language models (LCVLMs), which are capable
of handling hundreds of images with interleaved text tokens in a single forward
pass. In this work, we introduce MMLongBench, the first benchmark covering a
diverse set of long-context vision-language tasks, to evaluate LCVLMs
effectively and thoroughly. MMLongBench is composed of 13,331 examples spanning
five different categories of downstream tasks, such as Visual RAG and Many-Shot
ICL. It also provides broad coverage of image types, including various natural
and synthetic images. To assess the robustness of the models to different input
lengths, all examples are delivered at five standardized input lengths (8K-128K
tokens) via a cross-modal tokenization scheme that combines vision patches and
text tokens. Through a thorough benchmarking of 46 closed-source and
open-source LCVLMs, we provide a comprehensive analysis of the current models'
vision-language long-context ability. Our results show that: i) performance on
a single task is a weak proxy for overall long-context capability; ii) both
closed-source and open-source models face challenges in long-context
vision-language tasks, indicating substantial room for future improvement; iii)
models with stronger reasoning ability tend to exhibit better long-context
performance. By offering wide task coverage, various image types, and rigorous
length control, MMLongBench provides the missing foundation for diagnosing and
advancing the next generation of LCVLMs.Summary
AI-Generated Summary