ChatPaper.aiChatPaper

Visual Haystacks: Rispondere a Domande Complesse su Insiemi di Immagini

Visual Haystacks: Answering Harder Questions About Sets of Images

July 18, 2024
Autori: Tsung-Han Wu, Giscard Biamby, Jerome Quenum, Ritwik Gupta, Joseph E. Gonzalez, Trevor Darrell, David M. Chan
cs.AI

Abstract

I recenti progressi nei Modelli Multimodali di Grande Scala (LMMs) hanno compiuto passi significativi nel campo del rispondere a domande visive su singole immagini. Tuttavia, questi modelli incontrano notevoli difficoltà quando devono affrontare query che abbracciano ampie collezioni di immagini, simili a scenari del mondo reale come la ricerca all'interno di grandi album fotografici, il trovare informazioni specifiche su internet o il monitoraggio dei cambiamenti ambientali attraverso immagini satellitari. Questo articolo esplora il compito del Rispondere a Domande Visive su Immagini Multiple (MIQA): dato un ampio insieme di immagini e una query in linguaggio naturale, il compito è generare una risposta pertinente e fondata. Proponiamo un nuovo benchmark pubblico, denominato "Visual Haystacks (VHs)", specificamente progettato per valutare le capacità dei LMMs nel recupero visivo e nel ragionamento su insiemi di immagini non correlate, dove eseguiamo valutazioni complete dimostrando che anche i robusti modelli closed-source lottano significativamente. Per affrontare queste carenze, introduciamo MIRAGE (Multi-Image Retrieval Augmented Generation), un nuovo framework di recupero/QA progettato per i LMMs che affronta le sfide del MIQA con miglioramenti marcati in efficienza e accuratezza rispetto ai metodi di base. La nostra valutazione mostra che MIRAGE supera i modelli closed-source GPT-4o fino all'11% sul benchmark VHs e offre miglioramenti fino a 3.4x in efficienza rispetto agli approcci multi-stage focalizzati sul testo.
English
Recent advancements in Large Multimodal Models (LMMs) have made significant progress in the field of single-image visual question answering. However, these models face substantial challenges when tasked with queries that span extensive collections of images, similar to real-world scenarios like searching through large photo albums, finding specific information across the internet, or monitoring environmental changes through satellite imagery. This paper explores the task of Multi-Image Visual Question Answering (MIQA): given a large set of images and a natural language query, the task is to generate a relevant and grounded response. We propose a new public benchmark, dubbed "Visual Haystacks (VHs)," specifically designed to evaluate LMMs' capabilities in visual retrieval and reasoning over sets of unrelated images, where we perform comprehensive evaluations demonstrating that even robust closed-source models struggle significantly. Towards addressing these shortcomings, we introduce MIRAGE (Multi-Image Retrieval Augmented Generation), a novel retrieval/QA framework tailored for LMMs that confronts the challenges of MIQA with marked efficiency and accuracy improvements over baseline methods. Our evaluation shows that MIRAGE surpasses closed-source GPT-4o models by up to 11% on the VHs benchmark and offers up to 3.4x improvements in efficiency over text-focused multi-stage approaches.
PDF24November 28, 2024