Aiguille multimodale dans une botte de foin : Évaluation des capacités en contexte étendu des modèles de langage multimodaux de grande tailleMultimodal Needle in a Haystack: Benchmarking Long-Context Capability of
Multimodal Large Language Models
Les modèles de langage multimodaux de grande taille (MLLMs) ont démontré un potentiel significatif dans diverses applications, suscitant un intérêt croissant de la part des chercheurs et des praticiens. Cependant, une évaluation approfondie de leurs capacités à gérer des contextes longs reste insuffisamment explorée. Pour combler ces lacunes, nous introduisons le benchmark MultiModal Needle-in-a-haystack (MMNeedle), spécifiquement conçu pour évaluer les capacités des MLLMs à traiter des contextes longs. En plus des entrées multi-images, nous utilisons l'assemblage d'images pour augmenter davantage la longueur du contexte d'entrée, et développons un protocole pour générer automatiquement des étiquettes pour la récupération au niveau des sous-images. Essentiellement, MMNeedle évalue les MLLMs en testant leur capacité à localiser une sous-image cible (aiguille) parmi un ensemble d'images (meule de foin) en se basant sur des instructions textuelles et des descriptions du contenu des images. Cette configuration nécessite une compréhension avancée des contextes visuels étendus et une récupération efficace d'informations dans des entrées d'images à contexte long. Avec ce benchmark, nous évaluons les MLLMs de pointe, incluant à la fois des modèles basés sur des API et des modèles open-source. Les résultats révèlent que GPT-4o surpasse systématiquement les autres modèles dans les scénarios à contexte long, mais souffre de problèmes d'hallucination dans les échantillons négatifs, c'est-à-dire lorsque les aiguilles ne sont pas dans les meules de foin. Notre évaluation approfondie des MLLMs dans des contextes longs met également en lumière l'écart de performance considérable entre les modèles basés sur des API et les modèles open-source. Tous les codes, données et instructions nécessaires pour reproduire les principaux résultats sont disponibles à l'adresse https://github.com/Wang-ML-Lab/multimodal-needle-in-a-haystack.