Aiguille multimodale dans une botte de foin : Évaluation des capacités en contexte étendu des modèles de langage multimodaux de grande taille
Multimodal Needle in a Haystack: Benchmarking Long-Context Capability of Multimodal Large Language Models
June 17, 2024
Auteurs: Hengyi Wang, Haizhou Shi, Shiwei Tan, Weiyi Qin, Wenyuan Wang, Tunyu Zhang, Akshay Nambi, Tanuja Ganu, Hao Wang
cs.AI
Résumé
Les modèles de langage multimodaux de grande taille (MLLMs) ont démontré un potentiel significatif dans diverses applications, suscitant un intérêt croissant de la part des chercheurs et des praticiens. Cependant, une évaluation approfondie de leurs capacités à gérer des contextes longs reste insuffisamment explorée. Pour combler ces lacunes, nous introduisons le benchmark MultiModal Needle-in-a-haystack (MMNeedle), spécifiquement conçu pour évaluer les capacités des MLLMs à traiter des contextes longs. En plus des entrées multi-images, nous utilisons l'assemblage d'images pour augmenter davantage la longueur du contexte d'entrée, et développons un protocole pour générer automatiquement des étiquettes pour la récupération au niveau des sous-images. Essentiellement, MMNeedle évalue les MLLMs en testant leur capacité à localiser une sous-image cible (aiguille) parmi un ensemble d'images (meule de foin) en se basant sur des instructions textuelles et des descriptions du contenu des images. Cette configuration nécessite une compréhension avancée des contextes visuels étendus et une récupération efficace d'informations dans des entrées d'images à contexte long. Avec ce benchmark, nous évaluons les MLLMs de pointe, incluant à la fois des modèles basés sur des API et des modèles open-source. Les résultats révèlent que GPT-4o surpasse systématiquement les autres modèles dans les scénarios à contexte long, mais souffre de problèmes d'hallucination dans les échantillons négatifs, c'est-à-dire lorsque les aiguilles ne sont pas dans les meules de foin. Notre évaluation approfondie des MLLMs dans des contextes longs met également en lumière l'écart de performance considérable entre les modèles basés sur des API et les modèles open-source. Tous les codes, données et instructions nécessaires pour reproduire les principaux résultats sont disponibles à l'adresse https://github.com/Wang-ML-Lab/multimodal-needle-in-a-haystack.
English
Multimodal Large Language Models (MLLMs) have shown significant promise in
various applications, leading to broad interest from researchers and
practitioners alike. However, a comprehensive evaluation of their long-context
capabilities remains underexplored. To address these gaps, we introduce the
MultiModal Needle-in-a-haystack (MMNeedle) benchmark, specifically designed to
assess the long-context capabilities of MLLMs. Besides multi-image input, we
employ image stitching to further increase the input context length, and
develop a protocol to automatically generate labels for sub-image level
retrieval. Essentially, MMNeedle evaluates MLLMs by stress-testing their
capability to locate a target sub-image (needle) within a set of images
(haystack) based on textual instructions and descriptions of image contents.
This setup necessitates an advanced understanding of extensive visual contexts
and effective information retrieval within long-context image inputs. With this
benchmark, we evaluate state-of-the-art MLLMs, encompassing both API-based and
open-source models. The findings reveal that GPT-4o consistently surpasses
other models in long-context scenarios, but suffers from hallucination problems
in negative samples, i.e., when needles are not in the haystacks. Our
comprehensive long-context evaluation of MLLMs also sheds lights on the
considerable performance gap between API-based and open-source models. All the
code, data, and instructions required to reproduce the main results are
available at https://github.com/Wang-ML-Lab/multimodal-needle-in-a-haystack.Summary
AI-Generated Summary