Visuele Hooibergen: Moeilijkere Vragen Beantwoorden over Sets van Afbeeldingen

Samenvatting

Recente vooruitgang in Grote Multimodale Modellen (LMMs) heeft aanzienlijke vooruitgang geboekt op het gebied van visuele vraagbeantwoording met één afbeelding. Deze modellen worden echter geconfronteerd met aanzienlijke uitdagingen wanneer ze taken krijgen die een uitgebreide verzameling afbeeldingen omvatten, vergelijkbaar met realistische scenario's zoals het doorzoeken van grote fotoalbums, het vinden van specifieke informatie op internet, of het monitoren van milieuveranderingen via satellietbeelden. Dit artikel onderzoekt de taak van Visuele Vraagbeantwoording met Meerdere Afbeeldingen (MIQA): gegeven een grote set afbeeldingen en een natuurlijke taalvraag, is de taak om een relevante en gegronde reactie te genereren. We stellen een nieuwe openbare benchmark voor, genaamd "Visual Haystacks (VHs)", specifiek ontworpen om de mogelijkheden van LMMs te evalueren in visuele retrieval en redenering over sets van niet-gerelateerde afbeeldingen, waar we uitgebreide evaluaties uitvoeren die aantonen dat zelfs robuuste closed-source modellen aanzienlijk moeite hebben. Om deze tekortkomingen aan te pakken, introduceren we MIRAGE (Multi-Image Retrieval Augmented Generation), een nieuw retrieval/vraagbeantwoordings- framework op maat voor LMMs dat de uitdagingen van MIQA met opmerkelijke efficiëntie en nauwkeurigheidsverbeteringen aanpakt ten opzichte van baseline-methoden. Onze evaluatie laat zien dat MIRAGE closed-source GPT-4o-modellen met tot 11% overtreft op de VHs- benchmark en tot 3,4x verbeteringen in efficiëntie biedt ten opzichte van tekstgerichte meerstapsbenaderingen.

English

Recent advancements in Large Multimodal Models (LMMs) have made significant progress in the field of single-image visual question answering. However, these models face substantial challenges when tasked with queries that span extensive collections of images, similar to real-world scenarios like searching through large photo albums, finding specific information across the internet, or monitoring environmental changes through satellite imagery. This paper explores the task of Multi-Image Visual Question Answering (MIQA): given a large set of images and a natural language query, the task is to generate a relevant and grounded response. We propose a new public benchmark, dubbed "Visual Haystacks (VHs)," specifically designed to evaluate LMMs' capabilities in visual retrieval and reasoning over sets of unrelated images, where we perform comprehensive evaluations demonstrating that even robust closed-source models struggle significantly. Towards addressing these shortcomings, we introduce MIRAGE (Multi-Image Retrieval Augmented Generation), a novel retrieval/QA framework tailored for LMMs that confronts the challenges of MIQA with marked efficiency and accuracy improvements over baseline methods. Our evaluation shows that MIRAGE surpasses closed-source GPT-4o models by up to 11% on the VHs benchmark and offers up to 3.4x improvements in efficiency over text-focused multi-stage approaches.

Visuele Hooibergen: Moeilijkere Vragen Beantwoorden over Sets van Afbeeldingen

Visual Haystacks: Answering Harder Questions About Sets of Images

Samenvatting

Support