ChatPaper.aiChatPaper

ビジュアル・ヘイスタック:画像集合に関するより難しい質問に答える

Visual Haystacks: Answering Harder Questions About Sets of Images

July 18, 2024
著者: Tsung-Han Wu, Giscard Biamby, Jerome Quenum, Ritwik Gupta, Joseph E. Gonzalez, Trevor Darrell, David M. Chan
cs.AI

要旨

大規模マルチモーダルモデル(LMMs)の最近の進展により、単一画像の視覚的質問応答分野において大きな進歩が見られました。しかし、これらのモデルは、大規模な画像コレクションにまたがるクエリを処理する際に、現実世界のシナリオ(例えば、大規模なフォトアルバムの検索、インターネット上の特定の情報の検索、衛星画像を通じた環境変化の監視など)と同様の課題に直面しています。本論文では、マルチ画像視覚的質問応答(MIQA)というタスクを探求します:大規模な画像セットと自然言語クエリが与えられた場合、関連性があり根拠のある応答を生成するタスクです。我々は、LMMsの視覚的検索および無関係な画像セットに対する推論能力を評価するために特別に設計された新しい公開ベンチマーク「Visual Haystacks(VHs)」を提案し、堅牢なクローズドソースモデルでさえも大幅に苦戦することを示す包括的な評価を行いました。これらの欠点に対処するために、我々はMIRAGE(Multi-Image Retrieval Augmented Generation)を導入します。これは、MIQAの課題に直面するためにLMMs向けにカスタマイズされた新しい検索/QAフレームワークであり、ベースライン手法と比較して顕著な効率性と精度の向上を実現します。我々の評価では、MIRAGEがVHsベンチマークにおいてクローズドソースのGPT-4oモデルを最大11%上回り、テキスト中心の多段階アプローチと比較して最大3.4倍の効率性向上を提供することが示されました。
English
Recent advancements in Large Multimodal Models (LMMs) have made significant progress in the field of single-image visual question answering. However, these models face substantial challenges when tasked with queries that span extensive collections of images, similar to real-world scenarios like searching through large photo albums, finding specific information across the internet, or monitoring environmental changes through satellite imagery. This paper explores the task of Multi-Image Visual Question Answering (MIQA): given a large set of images and a natural language query, the task is to generate a relevant and grounded response. We propose a new public benchmark, dubbed "Visual Haystacks (VHs)," specifically designed to evaluate LMMs' capabilities in visual retrieval and reasoning over sets of unrelated images, where we perform comprehensive evaluations demonstrating that even robust closed-source models struggle significantly. Towards addressing these shortcomings, we introduce MIRAGE (Multi-Image Retrieval Augmented Generation), a novel retrieval/QA framework tailored for LMMs that confronts the challenges of MIQA with marked efficiency and accuracy improvements over baseline methods. Our evaluation shows that MIRAGE surpasses closed-source GPT-4o models by up to 11% on the VHs benchmark and offers up to 3.4x improvements in efficiency over text-focused multi-stage approaches.

Summary

AI-Generated Summary

PDF24November 28, 2024