ChatPaper.aiChatPaper

Evaluación de la Comprensión Multi-Imagen en Modelos de Visión y Lenguaje: Percepción, Conocimiento, Razonamiento y Razonamiento Multi-Etapa

Benchmarking Multi-Image Understanding in Vision and Language Models: Perception, Knowledge, Reasoning, and Multi-Hop Reasoning

June 18, 2024
Autores: Bingchen Zhao, Yongshuo Zong, Letian Zhang, Timothy Hospedales
cs.AI

Resumen

El avance de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) ha ampliado significativamente el alcance de las aplicaciones en el procesamiento del lenguaje natural, con los LLMs multimodales extendiendo estas capacidades para integrar e interpretar datos visuales. Sin embargo, los puntos de referencia existentes para los modelos de lenguaje visual (VLMs) se centran predominantemente en entradas de una sola imagen, descuidando el aspecto crucial de la comprensión de múltiples imágenes. En este artículo, presentamos un Punto de Referencia Relacional de Múltiples Imágenes (MIRB, por sus siglas en inglés), diseñado para evaluar la capacidad de los VLMs para comparar, analizar y razonar a través de múltiples imágenes. Nuestro punto de referencia abarca cuatro categorías: percepción, conocimiento del mundo visual, razonamiento y razonamiento de múltiples pasos. A través de una evaluación exhaustiva de una amplia gama de modelos de código abierto y cerrado, demostramos que, aunque los VLMs de código abierto se acercaron al rendimiento de GPT-4V en tareas de una sola imagen, persiste una brecha significativa de rendimiento en tareas de razonamiento con múltiples imágenes. Nuestros hallazgos también revelan que incluso el modelo de última generación GPT-4V tiene dificultades con nuestro punto de referencia, subrayando la necesidad de más investigación y desarrollo en esta área. Creemos que nuestra contribución de MIRB podría servir como un banco de pruebas para desarrollar la próxima generación de modelos multimodales.
English
The advancement of large language models (LLMs) has significantly broadened the scope of applications in natural language processing, with multi-modal LLMs extending these capabilities to integrate and interpret visual data. However, existing benchmarks for visual language models (VLMs) predominantly focus on single-image inputs, neglecting the crucial aspect of multi-image understanding. In this paper, we introduce a Multi-Image Relational Benchmark MIRB, designed to evaluate VLMs' ability to compare, analyze, and reason across multiple images. Our benchmark encompasses four categories: perception, visual world knowledge, reasoning, and multi-hop reasoning. Through a comprehensive evaluation of a wide range of open-source and closed-source models, we demonstrate that while open-source VLMs were shown to approach the performance of GPT-4V in single-image tasks, a significant performance gap remains in multi-image reasoning tasks. Our findings also reveal that even the state-of-the-art GPT-4V model struggles with our benchmark, underscoring the need for further research and development in this area. We believe our contribution of MIRB could serve as a testbed for developing the next-generation multi-modal models.

Summary

AI-Generated Summary

PDF155December 4, 2024