ChatPaper.aiChatPaper

Agulha Multimodal no Palheiro: Avaliando a Capacidade de Contexto Longo em Modelos de Linguagem Multimodais de Grande Escala

Multimodal Needle in a Haystack: Benchmarking Long-Context Capability of Multimodal Large Language Models

June 17, 2024
Autores: Hengyi Wang, Haizhou Shi, Shiwei Tan, Weiyi Qin, Wenyuan Wang, Tunyu Zhang, Akshay Nambi, Tanuja Ganu, Hao Wang
cs.AI

Resumo

Modelos de Linguagem Multimodais de Grande Escala (MLLMs) têm demonstrado um potencial significativo em diversas aplicações, despertando amplo interesse tanto de pesquisadores quanto de profissionais. No entanto, uma avaliação abrangente de suas capacidades de contexto longo permanece pouco explorada. Para abordar essas lacunas, introduzimos o benchmark MultiModal Needle-in-a-haystack (MMNeedle), especificamente projetado para avaliar as capacidades de contexto longo dos MLLMs. Além da entrada de múltiplas imagens, empregamos a técnica de costura de imagens para aumentar ainda mais o comprimento do contexto de entrada e desenvolvemos um protocolo para gerar automaticamente rótulos para recuperação em nível de sub-imagem. Essencialmente, o MMNeedle avalia os MLLMs testando sua capacidade de localizar uma sub-imagem alvo (agulha) dentro de um conjunto de imagens (palheiro) com base em instruções textuais e descrições do conteúdo das imagens. Essa configuração exige um entendimento avançado de contextos visuais extensos e uma recuperação eficiente de informações em entradas de imagens de contexto longo. Com esse benchmark, avaliamos os MLLMs de última geração, abrangendo tanto modelos baseados em API quanto modelos de código aberto. Os resultados revelam que o GPT-4o supera consistentemente outros modelos em cenários de contexto longo, mas sofre com problemas de alucinação em amostras negativas, ou seja, quando as agulhas não estão presentes nos palheiros. Nossa avaliação abrangente de contexto longo dos MLLMs também lança luz sobre a considerável lacuna de desempenho entre modelos baseados em API e modelos de código aberto. Todo o código, dados e instruções necessários para reproduzir os principais resultados estão disponíveis em https://github.com/Wang-ML-Lab/multimodal-needle-in-a-haystack.
English
Multimodal Large Language Models (MLLMs) have shown significant promise in various applications, leading to broad interest from researchers and practitioners alike. However, a comprehensive evaluation of their long-context capabilities remains underexplored. To address these gaps, we introduce the MultiModal Needle-in-a-haystack (MMNeedle) benchmark, specifically designed to assess the long-context capabilities of MLLMs. Besides multi-image input, we employ image stitching to further increase the input context length, and develop a protocol to automatically generate labels for sub-image level retrieval. Essentially, MMNeedle evaluates MLLMs by stress-testing their capability to locate a target sub-image (needle) within a set of images (haystack) based on textual instructions and descriptions of image contents. This setup necessitates an advanced understanding of extensive visual contexts and effective information retrieval within long-context image inputs. With this benchmark, we evaluate state-of-the-art MLLMs, encompassing both API-based and open-source models. The findings reveal that GPT-4o consistently surpasses other models in long-context scenarios, but suffers from hallucination problems in negative samples, i.e., when needles are not in the haystacks. Our comprehensive long-context evaluation of MLLMs also sheds lights on the considerable performance gap between API-based and open-source models. All the code, data, and instructions required to reproduce the main results are available at https://github.com/Wang-ML-Lab/multimodal-needle-in-a-haystack.
PDF341December 3, 2024