ChatPaper.aiChatPaper

Aguja en un pajar multimodal: Evaluación de la capacidad de contexto extenso en modelos de lenguaje multimodal de gran escala

Multimodal Needle in a Haystack: Benchmarking Long-Context Capability of Multimodal Large Language Models

June 17, 2024
Autores: Hengyi Wang, Haizhou Shi, Shiwei Tan, Weiyi Qin, Wenyuan Wang, Tunyu Zhang, Akshay Nambi, Tanuja Ganu, Hao Wang
cs.AI

Resumen

Los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs, por sus siglas en inglés) han demostrado un potencial significativo en diversas aplicaciones, lo que ha generado un amplio interés tanto de investigadores como de profesionales. Sin embargo, una evaluación exhaustiva de sus capacidades en contextos largos sigue siendo un área poco explorada. Para abordar estas brechas, presentamos el benchmark MultiModal Needle-in-a-haystack (MMNeedle), diseñado específicamente para evaluar las capacidades de contexto largo de los MLLMs. Además de la entrada de múltiples imágenes, empleamos la técnica de unión de imágenes para aumentar aún más la longitud del contexto de entrada y desarrollamos un protocolo para generar automáticamente etiquetas para la recuperación a nivel de subimagen. Esencialmente, MMNeedle evalúa los MLLMs sometiéndolos a pruebas de estrés para localizar una subimagen objetivo (aguja) dentro de un conjunto de imágenes (pajar) basándose en instrucciones textuales y descripciones del contenido de las imágenes. Esta configuración requiere una comprensión avanzada de contextos visuales extensos y una recuperación efectiva de información dentro de entradas de imágenes de contexto largo. Con este benchmark, evaluamos los MLLMs más avanzados, incluyendo tanto modelos basados en API como modelos de código abierto. Los hallazgos revelan que GPT-4o supera consistentemente a otros modelos en escenarios de contexto largo, pero sufre problemas de alucinación en muestras negativas, es decir, cuando las agujas no están en los pajares. Nuestra evaluación exhaustiva de contexto largo de los MLLMs también arroja luz sobre la considerable brecha de rendimiento entre los modelos basados en API y los de código abierto. Todo el código, datos e instrucciones necesarios para reproducir los principales resultados están disponibles en https://github.com/Wang-ML-Lab/multimodal-needle-in-a-haystack.
English
Multimodal Large Language Models (MLLMs) have shown significant promise in various applications, leading to broad interest from researchers and practitioners alike. However, a comprehensive evaluation of their long-context capabilities remains underexplored. To address these gaps, we introduce the MultiModal Needle-in-a-haystack (MMNeedle) benchmark, specifically designed to assess the long-context capabilities of MLLMs. Besides multi-image input, we employ image stitching to further increase the input context length, and develop a protocol to automatically generate labels for sub-image level retrieval. Essentially, MMNeedle evaluates MLLMs by stress-testing their capability to locate a target sub-image (needle) within a set of images (haystack) based on textual instructions and descriptions of image contents. This setup necessitates an advanced understanding of extensive visual contexts and effective information retrieval within long-context image inputs. With this benchmark, we evaluate state-of-the-art MLLMs, encompassing both API-based and open-source models. The findings reveal that GPT-4o consistently surpasses other models in long-context scenarios, but suffers from hallucination problems in negative samples, i.e., when needles are not in the haystacks. Our comprehensive long-context evaluation of MLLMs also sheds lights on the considerable performance gap between API-based and open-source models. All the code, data, and instructions required to reproduce the main results are available at https://github.com/Wang-ML-Lab/multimodal-needle-in-a-haystack.

Summary

AI-Generated Summary

PDF351December 3, 2024