Visuelle Heuhaufen: Beantwortung schwieriger Fragen zu Bildersammlungen
Visual Haystacks: Answering Harder Questions About Sets of Images
July 18, 2024
Autoren: Tsung-Han Wu, Giscard Biamby, Jerome Quenum, Ritwik Gupta, Joseph E. Gonzalez, Trevor Darrell, David M. Chan
cs.AI
Zusammenfassung
Die jüngsten Fortschritte bei Large Multimodal Models (LMMs) haben signifikante Fortschritte im Bereich des visuellen Frage-Antwortens bei Einzelbildern erzielt. Diese Modelle stehen jedoch vor erheblichen Herausforderungen, wenn sie mit Anfragen konfrontiert werden, die umfangreiche Bildersammlungen umfassen, ähnlich wie in realen Szenarien wie der Suche in großen Fotoalben, der Suche nach spezifischen Informationen im Internet oder der Überwachung von Umweltveränderungen durch Satellitenbilder. Dieser Artikel untersucht die Aufgabe des Multi-Image Visual Question Answering (MIQA): Angesichts einer großen Menge von Bildern und einer natürlichsprachlichen Anfrage soll die Aufgabe eine relevante und fundierte Antwort generieren. Wir schlagen einen neuen öffentlichen Benchmark namens "Visual Haystacks (VHs)" vor, der speziell entwickelt wurde, um die Fähigkeiten von LMMs bei der visuellen Suche und dem Schlussfolgern über unzusammenhängende Bilder-Sets zu bewerten, wobei wir umfassende Bewertungen durchführen, die zeigen, dass selbst robuste Closed-Source-Modelle erhebliche Schwierigkeiten haben. Zur Behebung dieser Mängel führen wir MIRAGE (Multi-Image Retrieval Augmented Generation) ein, ein neuartiges Retrieval/QA-Framework, das für LMMs entwickelt wurde und die Herausforderungen von MIQA mit deutlichen Effizienz- und Genauigkeitsverbesserungen gegenüber Basislinienmethoden angeht. Unsere Evaluation zeigt, dass MIRAGE geschlossene GPT-4o-Modelle auf dem VHs-Benchmark um bis zu 11% übertrifft und bis zu 3,4-fache Verbesserungen in der Effizienz gegenüber textbasierten mehrstufigen Ansätzen bietet.
English
Recent advancements in Large Multimodal Models (LMMs) have made significant
progress in the field of single-image visual question answering. However, these
models face substantial challenges when tasked with queries that span extensive
collections of images, similar to real-world scenarios like searching through
large photo albums, finding specific information across the internet, or
monitoring environmental changes through satellite imagery. This paper explores
the task of Multi-Image Visual Question Answering (MIQA): given a large set of
images and a natural language query, the task is to generate a relevant and
grounded response. We propose a new public benchmark, dubbed "Visual Haystacks
(VHs)," specifically designed to evaluate LMMs' capabilities in visual
retrieval and reasoning over sets of unrelated images, where we perform
comprehensive evaluations demonstrating that even robust closed-source models
struggle significantly. Towards addressing these shortcomings, we introduce
MIRAGE (Multi-Image Retrieval Augmented Generation), a novel retrieval/QA
framework tailored for LMMs that confronts the challenges of MIQA with marked
efficiency and accuracy improvements over baseline methods. Our evaluation
shows that MIRAGE surpasses closed-source GPT-4o models by up to 11% on the VHs
benchmark and offers up to 3.4x improvements in efficiency over text-focused
multi-stage approaches.Summary
AI-Generated Summary