Pilhas de Feno Visuais: Respondendo a Perguntas Mais Difíceis Sobre Conjuntos de Imagens
Visual Haystacks: Answering Harder Questions About Sets of Images
July 18, 2024
Autores: Tsung-Han Wu, Giscard Biamby, Jerome Quenum, Ritwik Gupta, Joseph E. Gonzalez, Trevor Darrell, David M. Chan
cs.AI
Resumo
Avanços recentes em Modelos Multimodais de Grande Escala (LMMs) têm feito progressos significativos no campo de responder a perguntas visuais de imagem única. No entanto, esses modelos enfrentam desafios substanciais ao lidar com consultas que abrangem extensas coleções de imagens, semelhantes a cenários do mundo real, como procurar em grandes álbuns de fotos, encontrar informações específicas na internet ou monitorar mudanças ambientais por meio de imagens de satélite. Este artigo explora a tarefa de Resposta a Perguntas Visuais de Multi-Imagens (MIQA): dado um grande conjunto de imagens e uma consulta em linguagem natural, a tarefa é gerar uma resposta relevante e fundamentada. Propomos um novo benchmark público, denominado "Visual Haystacks (VHs)", especificamente projetado para avaliar as capacidades dos LMMs em recuperação visual e raciocínio sobre conjuntos de imagens não relacionadas, onde realizamos avaliações abrangentes demonstrando que até mesmo modelos robustos de código fechado enfrentam desafios significativos. Para lidar com essas deficiências, apresentamos o MIRAGE (Geração Aumentada de Recuperação de Multi-Imagens), um novo framework de recuperação/QA adaptado para LMMs que enfrenta os desafios do MIQA com melhorias marcantes em eficiência e precisão em relação aos métodos de linha de base. Nossa avaliação mostra que o MIRAGE supera os modelos GPT-4o de código fechado em até 11% no benchmark VHs e oferece melhorias de até 3,4 vezes em eficiência em relação a abordagens multiestágio focadas em texto.
English
Recent advancements in Large Multimodal Models (LMMs) have made significant
progress in the field of single-image visual question answering. However, these
models face substantial challenges when tasked with queries that span extensive
collections of images, similar to real-world scenarios like searching through
large photo albums, finding specific information across the internet, or
monitoring environmental changes through satellite imagery. This paper explores
the task of Multi-Image Visual Question Answering (MIQA): given a large set of
images and a natural language query, the task is to generate a relevant and
grounded response. We propose a new public benchmark, dubbed "Visual Haystacks
(VHs)," specifically designed to evaluate LMMs' capabilities in visual
retrieval and reasoning over sets of unrelated images, where we perform
comprehensive evaluations demonstrating that even robust closed-source models
struggle significantly. Towards addressing these shortcomings, we introduce
MIRAGE (Multi-Image Retrieval Augmented Generation), a novel retrieval/QA
framework tailored for LMMs that confronts the challenges of MIQA with marked
efficiency and accuracy improvements over baseline methods. Our evaluation
shows that MIRAGE surpasses closed-source GPT-4o models by up to 11% on the VHs
benchmark and offers up to 3.4x improvements in efficiency over text-focused
multi-stage approaches.