ChatPaper.aiChatPaper

Visuelle Heuhaufen: Beantwortung schwieriger Fragen zu Bildersammlungen

Visual Haystacks: Answering Harder Questions About Sets of Images

July 18, 2024
Autoren: Tsung-Han Wu, Giscard Biamby, Jerome Quenum, Ritwik Gupta, Joseph E. Gonzalez, Trevor Darrell, David M. Chan
cs.AI

Zusammenfassung

Die jüngsten Fortschritte bei Large Multimodal Models (LMMs) haben signifikante Fortschritte im Bereich des visuellen Frage-Antwortens bei Einzelbildern erzielt. Diese Modelle stehen jedoch vor erheblichen Herausforderungen, wenn sie mit Anfragen konfrontiert werden, die umfangreiche Bildersammlungen umfassen, ähnlich wie in realen Szenarien wie der Suche in großen Fotoalben, der Suche nach spezifischen Informationen im Internet oder der Überwachung von Umweltveränderungen durch Satellitenbilder. Dieser Artikel untersucht die Aufgabe des Multi-Image Visual Question Answering (MIQA): Angesichts einer großen Menge von Bildern und einer natürlichsprachlichen Anfrage soll die Aufgabe eine relevante und fundierte Antwort generieren. Wir schlagen einen neuen öffentlichen Benchmark namens "Visual Haystacks (VHs)" vor, der speziell entwickelt wurde, um die Fähigkeiten von LMMs bei der visuellen Suche und dem Schlussfolgern über unzusammenhängende Bilder-Sets zu bewerten, wobei wir umfassende Bewertungen durchführen, die zeigen, dass selbst robuste Closed-Source-Modelle erhebliche Schwierigkeiten haben. Zur Behebung dieser Mängel führen wir MIRAGE (Multi-Image Retrieval Augmented Generation) ein, ein neuartiges Retrieval/QA-Framework, das für LMMs entwickelt wurde und die Herausforderungen von MIQA mit deutlichen Effizienz- und Genauigkeitsverbesserungen gegenüber Basislinienmethoden angeht. Unsere Evaluation zeigt, dass MIRAGE geschlossene GPT-4o-Modelle auf dem VHs-Benchmark um bis zu 11% übertrifft und bis zu 3,4-fache Verbesserungen in der Effizienz gegenüber textbasierten mehrstufigen Ansätzen bietet.
English
Recent advancements in Large Multimodal Models (LMMs) have made significant progress in the field of single-image visual question answering. However, these models face substantial challenges when tasked with queries that span extensive collections of images, similar to real-world scenarios like searching through large photo albums, finding specific information across the internet, or monitoring environmental changes through satellite imagery. This paper explores the task of Multi-Image Visual Question Answering (MIQA): given a large set of images and a natural language query, the task is to generate a relevant and grounded response. We propose a new public benchmark, dubbed "Visual Haystacks (VHs)," specifically designed to evaluate LMMs' capabilities in visual retrieval and reasoning over sets of unrelated images, where we perform comprehensive evaluations demonstrating that even robust closed-source models struggle significantly. Towards addressing these shortcomings, we introduce MIRAGE (Multi-Image Retrieval Augmented Generation), a novel retrieval/QA framework tailored for LMMs that confronts the challenges of MIQA with marked efficiency and accuracy improvements over baseline methods. Our evaluation shows that MIRAGE surpasses closed-source GPT-4o models by up to 11% on the VHs benchmark and offers up to 3.4x improvements in efficiency over text-focused multi-stage approaches.

Summary

AI-Generated Summary

PDF24November 28, 2024