MMLongBench: Effektive und umfassende Bewertung von Vision-Sprache-Modellen mit langem Kontext

papers.abstract

Die rasche Erweiterung der Kontextfenster in großen Vision-Sprache-Modellen hat zur Entstehung von langkontextfähigen Vision-Sprache-Modellen (LCVLMs) geführt, die in der Lage sind, Hunderte von Bildern mit verschachtelten Text-Tokens in einem einzigen Vorwärtsdurchlauf zu verarbeiten. In dieser Arbeit stellen wir MMLongBench vor, den ersten Benchmark, der eine vielfältige Sammlung von langkontextfähigen Vision-Sprache-Aufgaben abdeckt, um LCVLMs effektiv und umfassend zu evaluieren. MMLongBench besteht aus 13.331 Beispielen, die fünf verschiedene Kategorien von Downstream-Aufgaben abdecken, wie z. B. Visual RAG und Many-Shot ICL. Es bietet auch eine breite Abdeckung von Bildtypen, einschließlich verschiedener natürlicher und synthetischer Bilder. Um die Robustheit der Modelle gegenüber unterschiedlichen Eingabelängen zu bewerten, werden alle Beispiele in fünf standardisierten Eingabelängen (8K-128K Tokens) über ein cross-modales Tokenisierungsschema bereitgestellt, das Bild-Patches und Text-Tokens kombiniert. Durch eine umfassende Benchmarking-Analyse von 46 Closed-Source- und Open-Source-LCVLMs liefern wir eine detaillierte Analyse der aktuellen langkontextfähigen Vision-Sprache-Fähigkeiten der Modelle. Unsere Ergebnisse zeigen, dass: i) die Leistung bei einer einzelnen Aufgabe ein schwacher Indikator für die gesamte langkontextfähige Fähigkeit ist; ii) sowohl Closed-Source- als auch Open-Source-Modelle bei langkontextfähigen Vision-Sprache-Aufgaben vor Herausforderungen stehen, was auf erheblichen Verbesserungsbedarf hinweist; iii) Modelle mit stärkerer Fähigkeit zum logischen Denken tendenziell eine bessere langkontextfähige Leistung zeigen. Durch die breite Aufgabenabdeckung, verschiedene Bildtypen und strenge Längenkontrolle bietet MMLongBench die fehlende Grundlage für die Diagnose und Weiterentwicklung der nächsten Generation von LCVLMs.

English

The rapid extension of context windows in large vision-language models has given rise to long-context vision-language models (LCVLMs), which are capable of handling hundreds of images with interleaved text tokens in a single forward pass. In this work, we introduce MMLongBench, the first benchmark covering a diverse set of long-context vision-language tasks, to evaluate LCVLMs effectively and thoroughly. MMLongBench is composed of 13,331 examples spanning five different categories of downstream tasks, such as Visual RAG and Many-Shot ICL. It also provides broad coverage of image types, including various natural and synthetic images. To assess the robustness of the models to different input lengths, all examples are delivered at five standardized input lengths (8K-128K tokens) via a cross-modal tokenization scheme that combines vision patches and text tokens. Through a thorough benchmarking of 46 closed-source and open-source LCVLMs, we provide a comprehensive analysis of the current models' vision-language long-context ability. Our results show that: i) performance on a single task is a weak proxy for overall long-context capability; ii) both closed-source and open-source models face challenges in long-context vision-language tasks, indicating substantial room for future improvement; iii) models with stronger reasoning ability tend to exhibit better long-context performance. By offering wide task coverage, various image types, and rigorous length control, MMLongBench provides the missing foundation for diagnosing and advancing the next generation of LCVLMs.

MMLongBench: Effektive und umfassende Bewertung von Vision-Sprache-Modellen mit langem Kontext

MMLongBench: Benchmarking Long-Context Vision-Language Models Effectively and Thoroughly

papers.abstract

Support