Aguja en un pajar multimodal: Evaluación de la capacidad de contexto extenso en modelos de lenguaje multimodal de gran escalaMultimodal Needle in a Haystack: Benchmarking Long-Context Capability of
Multimodal Large Language Models
Los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs, por sus siglas en inglés) han demostrado un potencial significativo en diversas aplicaciones, lo que ha generado un amplio interés tanto de investigadores como de profesionales. Sin embargo, una evaluación exhaustiva de sus capacidades en contextos largos sigue siendo un área poco explorada. Para abordar estas brechas, presentamos el benchmark MultiModal Needle-in-a-haystack (MMNeedle), diseñado específicamente para evaluar las capacidades de contexto largo de los MLLMs. Además de la entrada de múltiples imágenes, empleamos la técnica de unión de imágenes para aumentar aún más la longitud del contexto de entrada y desarrollamos un protocolo para generar automáticamente etiquetas para la recuperación a nivel de subimagen. Esencialmente, MMNeedle evalúa los MLLMs sometiéndolos a pruebas de estrés para localizar una subimagen objetivo (aguja) dentro de un conjunto de imágenes (pajar) basándose en instrucciones textuales y descripciones del contenido de las imágenes. Esta configuración requiere una comprensión avanzada de contextos visuales extensos y una recuperación efectiva de información dentro de entradas de imágenes de contexto largo. Con este benchmark, evaluamos los MLLMs más avanzados, incluyendo tanto modelos basados en API como modelos de código abierto. Los hallazgos revelan que GPT-4o supera consistentemente a otros modelos en escenarios de contexto largo, pero sufre problemas de alucinación en muestras negativas, es decir, cuando las agujas no están en los pajares. Nuestra evaluación exhaustiva de contexto largo de los MLLMs también arroja luz sobre la considerable brecha de rendimiento entre los modelos basados en API y los de código abierto. Todo el código, datos e instrucciones necesarios para reproducir los principales resultados están disponibles en https://github.com/Wang-ML-Lab/multimodal-needle-in-a-haystack.