Montones de Heno Visuales: Respondiendo Preguntas Más Difíciles Sobre Conjuntos de Imágenes
Visual Haystacks: Answering Harder Questions About Sets of Images
July 18, 2024
Autores: Tsung-Han Wu, Giscard Biamby, Jerome Quenum, Ritwik Gupta, Joseph E. Gonzalez, Trevor Darrell, David M. Chan
cs.AI
Resumen
Los avances recientes en Modelos Multimodales Grandes (LMMs) han logrado un progreso significativo en el campo de la respuesta visual a preguntas de una sola imagen. Sin embargo, estos modelos enfrentan desafíos sustanciales al enfrentarse a consultas que abarcan extensas colecciones de imágenes, similares a escenarios del mundo real como buscar en grandes álbumes de fotos, encontrar información específica en internet o monitorear cambios ambientales a través de imágenes satelitales. Este documento explora la tarea de Respuesta a Preguntas Visuales de Múltiples Imágenes (MIQA): dada una gran cantidad de imágenes y una consulta en lenguaje natural, la tarea consiste en generar una respuesta relevante y fundamentada. Proponemos un nuevo punto de referencia público, denominado "Montones Visuales (VHs)", diseñado específicamente para evaluar las capacidades de los LMMs en la recuperación visual y el razonamiento sobre conjuntos de imágenes no relacionadas, donde realizamos evaluaciones exhaustivas que demuestran que incluso los modelos robustos de código cerrado tienen dificultades significativas. Para abordar estas deficiencias, presentamos MIRAGE (Generación Aumentada de Recuperación de Múltiples Imágenes), un marco de trabajo de recuperación/QA novedoso diseñado para LMMs que enfrenta los desafíos de MIQA con mejoras marcadas en eficiencia y precisión sobre los métodos base. Nuestra evaluación muestra que MIRAGE supera a los modelos GPT-4o de código cerrado hasta en un 11% en el punto de referencia VHs y ofrece mejoras de hasta 3.4 veces en eficiencia sobre enfoques multi-etapa centrados en texto.
English
Recent advancements in Large Multimodal Models (LMMs) have made significant
progress in the field of single-image visual question answering. However, these
models face substantial challenges when tasked with queries that span extensive
collections of images, similar to real-world scenarios like searching through
large photo albums, finding specific information across the internet, or
monitoring environmental changes through satellite imagery. This paper explores
the task of Multi-Image Visual Question Answering (MIQA): given a large set of
images and a natural language query, the task is to generate a relevant and
grounded response. We propose a new public benchmark, dubbed "Visual Haystacks
(VHs)," specifically designed to evaluate LMMs' capabilities in visual
retrieval and reasoning over sets of unrelated images, where we perform
comprehensive evaluations demonstrating that even robust closed-source models
struggle significantly. Towards addressing these shortcomings, we introduce
MIRAGE (Multi-Image Retrieval Augmented Generation), a novel retrieval/QA
framework tailored for LMMs that confronts the challenges of MIQA with marked
efficiency and accuracy improvements over baseline methods. Our evaluation
shows that MIRAGE surpasses closed-source GPT-4o models by up to 11% on the VHs
benchmark and offers up to 3.4x improvements in efficiency over text-focused
multi-stage approaches.Summary
AI-Generated Summary