MMLongBench: Effektive und umfassende Bewertung von Vision-Sprache-Modellen mit langem Kontext
MMLongBench: Benchmarking Long-Context Vision-Language Models Effectively and Thoroughly
May 15, 2025
Autoren: Zhaowei Wang, Wenhao Yu, Xiyu Ren, Jipeng Zhang, Yu Zhao, Rohit Saxena, Liang Cheng, Ginny Wong, Simon See, Pasquale Minervini, Yangqiu Song, Mark Steedman
cs.AI
Zusammenfassung
Die rasche Erweiterung der Kontextfenster in großen Vision-Sprache-Modellen hat zur Entstehung von langkontextfähigen Vision-Sprache-Modellen (LCVLMs) geführt, die in der Lage sind, Hunderte von Bildern mit verschachtelten Text-Tokens in einem einzigen Vorwärtsdurchlauf zu verarbeiten. In dieser Arbeit stellen wir MMLongBench vor, den ersten Benchmark, der eine vielfältige Sammlung von langkontextfähigen Vision-Sprache-Aufgaben abdeckt, um LCVLMs effektiv und umfassend zu evaluieren. MMLongBench besteht aus 13.331 Beispielen, die fünf verschiedene Kategorien von Downstream-Aufgaben abdecken, wie z. B. Visual RAG und Many-Shot ICL. Es bietet auch eine breite Abdeckung von Bildtypen, einschließlich verschiedener natürlicher und synthetischer Bilder. Um die Robustheit der Modelle gegenüber unterschiedlichen Eingabelängen zu bewerten, werden alle Beispiele in fünf standardisierten Eingabelängen (8K-128K Tokens) über ein cross-modales Tokenisierungsschema bereitgestellt, das Bild-Patches und Text-Tokens kombiniert. Durch eine umfassende Benchmarking-Analyse von 46 Closed-Source- und Open-Source-LCVLMs liefern wir eine detaillierte Analyse der aktuellen langkontextfähigen Vision-Sprache-Fähigkeiten der Modelle. Unsere Ergebnisse zeigen, dass: i) die Leistung bei einer einzelnen Aufgabe ein schwacher Indikator für die gesamte langkontextfähige Fähigkeit ist; ii) sowohl Closed-Source- als auch Open-Source-Modelle bei langkontextfähigen Vision-Sprache-Aufgaben vor Herausforderungen stehen, was auf erheblichen Verbesserungsbedarf hinweist; iii) Modelle mit stärkerer Fähigkeit zum logischen Denken tendenziell eine bessere langkontextfähige Leistung zeigen. Durch die breite Aufgabenabdeckung, verschiedene Bildtypen und strenge Längenkontrolle bietet MMLongBench die fehlende Grundlage für die Diagnose und Weiterentwicklung der nächsten Generation von LCVLMs.
English
The rapid extension of context windows in large vision-language models has
given rise to long-context vision-language models (LCVLMs), which are capable
of handling hundreds of images with interleaved text tokens in a single forward
pass. In this work, we introduce MMLongBench, the first benchmark covering a
diverse set of long-context vision-language tasks, to evaluate LCVLMs
effectively and thoroughly. MMLongBench is composed of 13,331 examples spanning
five different categories of downstream tasks, such as Visual RAG and Many-Shot
ICL. It also provides broad coverage of image types, including various natural
and synthetic images. To assess the robustness of the models to different input
lengths, all examples are delivered at five standardized input lengths (8K-128K
tokens) via a cross-modal tokenization scheme that combines vision patches and
text tokens. Through a thorough benchmarking of 46 closed-source and
open-source LCVLMs, we provide a comprehensive analysis of the current models'
vision-language long-context ability. Our results show that: i) performance on
a single task is a weak proxy for overall long-context capability; ii) both
closed-source and open-source models face challenges in long-context
vision-language tasks, indicating substantial room for future improvement; iii)
models with stronger reasoning ability tend to exhibit better long-context
performance. By offering wide task coverage, various image types, and rigorous
length control, MMLongBench provides the missing foundation for diagnosing and
advancing the next generation of LCVLMs.Summary
AI-Generated Summary