Multimodaler Nadel im Heuhaufen: Bewertung der Fähigkeit von multimodalen großen Sprachmodellen zur Verarbeitung langer Kontexte
Multimodal Needle in a Haystack: Benchmarking Long-Context Capability of Multimodal Large Language Models
June 17, 2024
Autoren: Hengyi Wang, Haizhou Shi, Shiwei Tan, Weiyi Qin, Wenyuan Wang, Tunyu Zhang, Akshay Nambi, Tanuja Ganu, Hao Wang
cs.AI
Zusammenfassung
Multimodale Large Language Models (MLLMs) haben in verschiedenen Anwendungen signifikantes Potenzial gezeigt, was zu großem Interesse von Forschern und Praktikern gleichermaßen geführt hat. Allerdings bleibt eine umfassende Bewertung ihrer Fähigkeiten im Umgang mit langen Kontexten weitgehend unerforscht. Um diese Lücken zu schließen, stellen wir das MultiModal Needle-in-a-haystack (MMNeedle) Benchmark vor, das speziell entwickelt wurde, um die Fähigkeiten von MLLMs im Umgang mit langen Kontexten zu bewerten. Neben multi-bildlichen Eingaben verwenden wir Bildzusammenfügung, um die Eingabekontextlänge weiter zu erhöhen, und entwickeln ein Protokoll zur automatischen Generierung von Labels für die Abrufung auf der Unterbildebene. Im Wesentlichen bewertet MMNeedle MLLMs, indem sie ihre Fähigkeit testet, ein Zielunterbild (Nadel) innerhalb einer Reihe von Bildern (Heuhaufen) anhand textueller Anweisungen und Beschreibungen der Bildinhalte zu lokalisieren. Dieses Setup erfordert ein fortgeschrittenes Verständnis umfangreicher visueller Kontexte und effektive Informationsabrufung innerhalb von Bildereingaben mit langem Kontext. Mit diesem Benchmark bewerten wir modernste MLLMs, die sowohl auf API-basierten als auch auf Open-Source-Modellen basieren. Die Ergebnisse zeigen, dass GPT-4o in langen Kontextszenarien konsistent andere Modelle übertrifft, jedoch unter Halluzinationsproblemen in negativen Beispielen leidet, d.h. wenn Nadeln nicht in den Heuhaufen sind. Unsere umfassende Bewertung von MLLMs im langen Kontext wirft auch Licht auf die beträchtliche Leistungsdifferenz zwischen API-basierten und Open-Source-Modellen. Der gesamte Code, die Daten und Anweisungen zur Reproduktion der Hauptergebnisse sind unter https://github.com/Wang-ML-Lab/multimodal-needle-in-a-haystack verfügbar.
English
Multimodal Large Language Models (MLLMs) have shown significant promise in
various applications, leading to broad interest from researchers and
practitioners alike. However, a comprehensive evaluation of their long-context
capabilities remains underexplored. To address these gaps, we introduce the
MultiModal Needle-in-a-haystack (MMNeedle) benchmark, specifically designed to
assess the long-context capabilities of MLLMs. Besides multi-image input, we
employ image stitching to further increase the input context length, and
develop a protocol to automatically generate labels for sub-image level
retrieval. Essentially, MMNeedle evaluates MLLMs by stress-testing their
capability to locate a target sub-image (needle) within a set of images
(haystack) based on textual instructions and descriptions of image contents.
This setup necessitates an advanced understanding of extensive visual contexts
and effective information retrieval within long-context image inputs. With this
benchmark, we evaluate state-of-the-art MLLMs, encompassing both API-based and
open-source models. The findings reveal that GPT-4o consistently surpasses
other models in long-context scenarios, but suffers from hallucination problems
in negative samples, i.e., when needles are not in the haystacks. Our
comprehensive long-context evaluation of MLLMs also sheds lights on the
considerable performance gap between API-based and open-source models. All the
code, data, and instructions required to reproduce the main results are
available at https://github.com/Wang-ML-Lab/multimodal-needle-in-a-haystack.Summary
AI-Generated Summary