Ago in un Pagliaio Multimodale: Benchmarking delle Capacità di Contesto Esteso nei Modelli Linguistici Multimodali di Grande Scala
Multimodal Needle in a Haystack: Benchmarking Long-Context Capability of Multimodal Large Language Models
June 17, 2024
Autori: Hengyi Wang, Haizhou Shi, Shiwei Tan, Weiyi Qin, Wenyuan Wang, Tunyu Zhang, Akshay Nambi, Tanuja Ganu, Hao Wang
cs.AI
Abstract
I Modelli Linguistici Multimodali di Grande Scala (MLLMs) hanno dimostrato un potenziale significativo in varie applicazioni, suscitando un ampio interesse sia tra i ricercatori che tra i professionisti. Tuttavia, una valutazione completa delle loro capacità di gestione di contesti lunghi rimane ancora poco esplorata. Per colmare queste lacune, introduciamo il benchmark MultiModal Needle-in-a-haystack (MMNeedle), progettato specificamente per valutare le capacità di gestione di contesti lunghi degli MLLMs. Oltre all'input multi-immagine, utilizziamo l'image stitching per aumentare ulteriormente la lunghezza del contesto di input e sviluppiamo un protocollo per generare automaticamente etichette per il recupero a livello di sotto-immagine. In sostanza, MMNeedle valuta gli MLLMs testando la loro capacità di individuare una sotto-immagine target (ago) all'interno di un insieme di immagini (pagliaio) basandosi su istruzioni testuali e descrizioni dei contenuti delle immagini. Questa configurazione richiede una comprensione avanzata di contesti visivi estesi e un'efficace recupero di informazioni all'interno di input di immagini con contesti lunghi. Con questo benchmark, valutiamo gli MLLMs più avanzati, includendo sia modelli basati su API che modelli open-source. I risultati rivelano che GPT-4o supera costantemente altri modelli negli scenari con contesti lunghi, ma soffre di problemi di allucinazione nei campioni negativi, ovvero quando gli aghi non sono presenti nei pagliai. La nostra valutazione completa delle capacità di gestione di contesti lunghi degli MLLMs mette anche in luce il notevole divario di prestazioni tra i modelli basati su API e quelli open-source. Tutto il codice, i dati e le istruzioni necessari per riprodurre i principali risultati sono disponibili all'indirizzo https://github.com/Wang-ML-Lab/multimodal-needle-in-a-haystack.
English
Multimodal Large Language Models (MLLMs) have shown significant promise in
various applications, leading to broad interest from researchers and
practitioners alike. However, a comprehensive evaluation of their long-context
capabilities remains underexplored. To address these gaps, we introduce the
MultiModal Needle-in-a-haystack (MMNeedle) benchmark, specifically designed to
assess the long-context capabilities of MLLMs. Besides multi-image input, we
employ image stitching to further increase the input context length, and
develop a protocol to automatically generate labels for sub-image level
retrieval. Essentially, MMNeedle evaluates MLLMs by stress-testing their
capability to locate a target sub-image (needle) within a set of images
(haystack) based on textual instructions and descriptions of image contents.
This setup necessitates an advanced understanding of extensive visual contexts
and effective information retrieval within long-context image inputs. With this
benchmark, we evaluate state-of-the-art MLLMs, encompassing both API-based and
open-source models. The findings reveal that GPT-4o consistently surpasses
other models in long-context scenarios, but suffers from hallucination problems
in negative samples, i.e., when needles are not in the haystacks. Our
comprehensive long-context evaluation of MLLMs also sheds lights on the
considerable performance gap between API-based and open-source models. All the
code, data, and instructions required to reproduce the main results are
available at https://github.com/Wang-ML-Lab/multimodal-needle-in-a-haystack.