Визуальные стога: ответы на более сложные вопросы о наборах изображений
Visual Haystacks: Answering Harder Questions About Sets of Images
July 18, 2024
Авторы: Tsung-Han Wu, Giscard Biamby, Jerome Quenum, Ritwik Gupta, Joseph E. Gonzalez, Trevor Darrell, David M. Chan
cs.AI
Аннотация
Недавние достижения в области крупных мультимодальных моделей (LMM) привели к значительному прогрессу в области визуального вопросно-ответного моделирования на основе одного изображения. Однако эти модели сталкиваются с существенными проблемами, когда ставятся перед задачей обработки запросов, охватывающих обширные коллекции изображений, подобные реальным сценариям, таким как поиск по большим фотоальбомам, поиск конкретной информации в интернете или мониторинг изменений окружающей среды с помощью спутниковых изображений. В данной статье исследуется задача визуального вопросно-ответного моделирования на основе нескольких изображений (MIQA): при наличии большого набора изображений и естественного языкового запроса задача заключается в генерации соответствующего и обоснованного ответа. Мы предлагаем новый общедоступный бенчмарк, названный "Визуальные Стога Сена (VHs)", специально разработанный для оценки возможностей LMM в визуальном поиске и рассуждениях над наборами несвязанных изображений, где мы проводим всесторонние оценки, демонстрируя, что даже надежные модели с закрытым исходным кодом сталкиваются с существенными трудностями. Для преодоления этих недостатков мы представляем MIRAGE (Мульти-Изображенческое Расширенное Поисково-Вопросно-Ответное Моделирование), новую систему поиска/вопросно-ответного моделирования, разработанную для LMM, которая решает проблемы MIQA с заметным повышением эффективности и точности по сравнению с базовыми методами. Наша оценка показывает, что MIRAGE превосходит модели GPT-4o с закрытым исходным кодом на бенчмарке VHs на до 11% и обеспечивает улучшение эффективности до 3.4 раза по сравнению с подходами с многоэтапным фокусом на текст.
English
Recent advancements in Large Multimodal Models (LMMs) have made significant
progress in the field of single-image visual question answering. However, these
models face substantial challenges when tasked with queries that span extensive
collections of images, similar to real-world scenarios like searching through
large photo albums, finding specific information across the internet, or
monitoring environmental changes through satellite imagery. This paper explores
the task of Multi-Image Visual Question Answering (MIQA): given a large set of
images and a natural language query, the task is to generate a relevant and
grounded response. We propose a new public benchmark, dubbed "Visual Haystacks
(VHs)," specifically designed to evaluate LMMs' capabilities in visual
retrieval and reasoning over sets of unrelated images, where we perform
comprehensive evaluations demonstrating that even robust closed-source models
struggle significantly. Towards addressing these shortcomings, we introduce
MIRAGE (Multi-Image Retrieval Augmented Generation), a novel retrieval/QA
framework tailored for LMMs that confronts the challenges of MIQA with marked
efficiency and accuracy improvements over baseline methods. Our evaluation
shows that MIRAGE surpasses closed-source GPT-4o models by up to 11% on the VHs
benchmark and offers up to 3.4x improvements in efficiency over text-focused
multi-stage approaches.Summary
AI-Generated Summary