ChatPaper.aiChatPaper

Multimodale speld in een hooiberg: Het benchmarken van lang-contextuele capaciteiten van multimodale grote taalmodellen

Multimodal Needle in a Haystack: Benchmarking Long-Context Capability of Multimodal Large Language Models

June 17, 2024
Auteurs: Hengyi Wang, Haizhou Shi, Shiwei Tan, Weiyi Qin, Wenyuan Wang, Tunyu Zhang, Akshay Nambi, Tanuja Ganu, Hao Wang
cs.AI

Samenvatting

Multimodale Large Language Models (MLLMs) hebben aanzienlijke belofte getoond in diverse toepassingen, wat heeft geleid tot brede interesse van zowel onderzoekers als praktijkmensen. Een uitgebreide evaluatie van hun lang-contextcapaciteiten blijft echter onderbelicht. Om deze lacunes aan te pakken, introduceren we de MultiModal Needle-in-a-haystack (MMNeedle) benchmark, die specifiek is ontworpen om de lang-contextcapaciteiten van MLLMs te beoordelen. Naast multi-image input gebruiken we image stitching om de input-contextlengte verder te vergroten, en ontwikkelen we een protocol om automatisch labels te genereren voor sub-image level retrieval. In essentie evalueert MMNeedle MLLMs door hun vermogen te testen om een doel-sub-image (naald) te lokaliseren binnen een set van afbeeldingen (hooiberg) op basis van tekstuele instructies en beschrijvingen van afbeeldingsinhoud. Deze opzet vereist een geavanceerd begrip van uitgebreide visuele contexten en effectieve informatie-retrieval binnen lang-context afbeeldingsinputs. Met deze benchmark evalueren we state-of-the-art MLLMs, zowel API-gebaseerde als open-source modellen. De bevindingen tonen aan dat GPT-4o consistent beter presteert dan andere modellen in lang-contextscenario's, maar last heeft van hallucinatieproblemen in negatieve samples, d.w.z. wanneer de naalden niet in de hooibergen zitten. Onze uitgebreide lang-contextevaluatie van MLLMs werpt ook licht op de aanzienlijke prestatiekloof tussen API-gebaseerde en open-source modellen. Alle code, data en instructies die nodig zijn om de belangrijkste resultaten te reproduceren, zijn beschikbaar op https://github.com/Wang-ML-Lab/multimodal-needle-in-a-haystack.
English
Multimodal Large Language Models (MLLMs) have shown significant promise in various applications, leading to broad interest from researchers and practitioners alike. However, a comprehensive evaluation of their long-context capabilities remains underexplored. To address these gaps, we introduce the MultiModal Needle-in-a-haystack (MMNeedle) benchmark, specifically designed to assess the long-context capabilities of MLLMs. Besides multi-image input, we employ image stitching to further increase the input context length, and develop a protocol to automatically generate labels for sub-image level retrieval. Essentially, MMNeedle evaluates MLLMs by stress-testing their capability to locate a target sub-image (needle) within a set of images (haystack) based on textual instructions and descriptions of image contents. This setup necessitates an advanced understanding of extensive visual contexts and effective information retrieval within long-context image inputs. With this benchmark, we evaluate state-of-the-art MLLMs, encompassing both API-based and open-source models. The findings reveal that GPT-4o consistently surpasses other models in long-context scenarios, but suffers from hallucination problems in negative samples, i.e., when needles are not in the haystacks. Our comprehensive long-context evaluation of MLLMs also sheds lights on the considerable performance gap between API-based and open-source models. All the code, data, and instructions required to reproduce the main results are available at https://github.com/Wang-ML-Lab/multimodal-needle-in-a-haystack.
PDF331February 8, 2026