Visuele Hooibergen: Moeilijkere Vragen Beantwoorden over Sets van Afbeeldingen
Visual Haystacks: Answering Harder Questions About Sets of Images
July 18, 2024
Auteurs: Tsung-Han Wu, Giscard Biamby, Jerome Quenum, Ritwik Gupta, Joseph E. Gonzalez, Trevor Darrell, David M. Chan
cs.AI
Samenvatting
Recente vooruitgang in Grote Multimodale Modellen (LMMs) heeft aanzienlijke
vooruitgang geboekt op het gebied van visuele vraagbeantwoording met één afbeelding. Deze
modellen worden echter geconfronteerd met aanzienlijke uitdagingen wanneer ze taken krijgen die een uitgebreide
verzameling afbeeldingen omvatten, vergelijkbaar met realistische scenario's zoals het doorzoeken van
grote fotoalbums, het vinden van specifieke informatie op internet, of
het monitoren van milieuveranderingen via satellietbeelden. Dit artikel onderzoekt
de taak van Visuele Vraagbeantwoording met Meerdere Afbeeldingen (MIQA): gegeven een grote set
afbeeldingen en een natuurlijke taalvraag, is de taak om een relevante en
gegronde reactie te genereren. We stellen een nieuwe openbare benchmark voor, genaamd "Visual Haystacks
(VHs)", specifiek ontworpen om de mogelijkheden van LMMs te evalueren in visuele
retrieval en redenering over sets van niet-gerelateerde afbeeldingen, waar we
uitgebreide evaluaties uitvoeren die aantonen dat zelfs robuuste closed-source modellen
aanzienlijk moeite hebben. Om deze tekortkomingen aan te pakken, introduceren we
MIRAGE (Multi-Image Retrieval Augmented Generation), een nieuw retrieval/vraagbeantwoordings-
framework op maat voor LMMs dat de uitdagingen van MIQA met opmerkelijke
efficiëntie en nauwkeurigheidsverbeteringen aanpakt ten opzichte van baseline-methoden. Onze evaluatie
laat zien dat MIRAGE closed-source GPT-4o-modellen met tot 11% overtreft op de VHs-
benchmark en tot 3,4x verbeteringen in efficiëntie biedt ten opzichte van tekstgerichte
meerstapsbenaderingen.
English
Recent advancements in Large Multimodal Models (LMMs) have made significant
progress in the field of single-image visual question answering. However, these
models face substantial challenges when tasked with queries that span extensive
collections of images, similar to real-world scenarios like searching through
large photo albums, finding specific information across the internet, or
monitoring environmental changes through satellite imagery. This paper explores
the task of Multi-Image Visual Question Answering (MIQA): given a large set of
images and a natural language query, the task is to generate a relevant and
grounded response. We propose a new public benchmark, dubbed "Visual Haystacks
(VHs)," specifically designed to evaluate LMMs' capabilities in visual
retrieval and reasoning over sets of unrelated images, where we perform
comprehensive evaluations demonstrating that even robust closed-source models
struggle significantly. Towards addressing these shortcomings, we introduce
MIRAGE (Multi-Image Retrieval Augmented Generation), a novel retrieval/QA
framework tailored for LMMs that confronts the challenges of MIQA with marked
efficiency and accuracy improvements over baseline methods. Our evaluation
shows that MIRAGE surpasses closed-source GPT-4o models by up to 11% on the VHs
benchmark and offers up to 3.4x improvements in efficiency over text-focused
multi-stage approaches.