Evaluación de la Comprensión Multi-Imagen en Modelos de Visión y Lenguaje: Percepción, Conocimiento, Razonamiento y Razonamiento Multi-Etapa
Benchmarking Multi-Image Understanding in Vision and Language Models: Perception, Knowledge, Reasoning, and Multi-Hop Reasoning
June 18, 2024
Autores: Bingchen Zhao, Yongshuo Zong, Letian Zhang, Timothy Hospedales
cs.AI
Resumen
El avance de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) ha ampliado significativamente el alcance de las aplicaciones en el procesamiento del lenguaje natural, con los LLMs multimodales extendiendo estas capacidades para integrar e interpretar datos visuales. Sin embargo, los puntos de referencia existentes para los modelos de lenguaje visual (VLMs) se centran predominantemente en entradas de una sola imagen, descuidando el aspecto crucial de la comprensión de múltiples imágenes. En este artículo, presentamos un Punto de Referencia Relacional de Múltiples Imágenes (MIRB, por sus siglas en inglés), diseñado para evaluar la capacidad de los VLMs para comparar, analizar y razonar a través de múltiples imágenes. Nuestro punto de referencia abarca cuatro categorías: percepción, conocimiento del mundo visual, razonamiento y razonamiento de múltiples pasos. A través de una evaluación exhaustiva de una amplia gama de modelos de código abierto y cerrado, demostramos que, aunque los VLMs de código abierto se acercaron al rendimiento de GPT-4V en tareas de una sola imagen, persiste una brecha significativa de rendimiento en tareas de razonamiento con múltiples imágenes. Nuestros hallazgos también revelan que incluso el modelo de última generación GPT-4V tiene dificultades con nuestro punto de referencia, subrayando la necesidad de más investigación y desarrollo en esta área. Creemos que nuestra contribución de MIRB podría servir como un banco de pruebas para desarrollar la próxima generación de modelos multimodales.
English
The advancement of large language models (LLMs) has significantly broadened
the scope of applications in natural language processing, with multi-modal LLMs
extending these capabilities to integrate and interpret visual data. However,
existing benchmarks for visual language models (VLMs) predominantly focus on
single-image inputs, neglecting the crucial aspect of multi-image
understanding. In this paper, we introduce a Multi-Image Relational Benchmark
MIRB, designed to evaluate VLMs' ability to compare, analyze, and reason across
multiple images. Our benchmark encompasses four categories: perception, visual
world knowledge, reasoning, and multi-hop reasoning. Through a comprehensive
evaluation of a wide range of open-source and closed-source models, we
demonstrate that while open-source VLMs were shown to approach the performance
of GPT-4V in single-image tasks, a significant performance gap remains in
multi-image reasoning tasks. Our findings also reveal that even the
state-of-the-art GPT-4V model struggles with our benchmark, underscoring the
need for further research and development in this area. We believe our
contribution of MIRB could serve as a testbed for developing the
next-generation multi-modal models.Summary
AI-Generated Summary