ChatPaper.aiChatPaper

시각적 건초더미: 이미지 집합에 대한 더 어려운 질문에 답하기

Visual Haystacks: Answering Harder Questions About Sets of Images

July 18, 2024
저자: Tsung-Han Wu, Giscard Biamby, Jerome Quenum, Ritwik Gupta, Joseph E. Gonzalez, Trevor Darrell, David M. Chan
cs.AI

초록

대규모 멀티모달 모델(Large Multimodal Models, LMMs)의 최근 발전은 단일 이미지 시각적 질의응답 분야에서 상당한 진전을 이루었습니다. 그러나 이러한 모델들은 대규모 이미지 컬렉션에 걸친 질의를 처리할 때, 실제 세계 시나리오(예: 대규모 사진 앨범 검색, 인터넷 전반의 특정 정보 찾기, 위성 이미지를 통한 환경 변화 모니터링 등)와 유사한 상황에서 상당한 어려움에 직면합니다. 본 논문은 다중 이미지 시각적 질의응답(Multi-Image Visual Question Answering, MIQA) 작업을 탐구합니다: 대규모 이미지 집합과 자연어 질의가 주어졌을 때, 관련성 있고 근거 있는 응답을 생성하는 작업입니다. 우리는 LMMs의 시각적 검색 및 관련 없는 이미지 집합에 대한 추론 능력을 평가하기 위해 특별히 설계된 새로운 공개 벤치마크인 "Visual Haystacks(VHs)"를 제안하며, 이를 통해 강력한 클로즈드소스 모델들도 상당히 어려움을 겪는다는 것을 포괄적으로 입증합니다. 이러한 단점을 해결하기 위해, 우리는 MIQA의 도전에 맞서며 기존 방법 대비 뚜렷한 효율성과 정확도 개선을 제공하는 LMMs를 위한 새로운 검색/질의응답 프레임워크인 MIRAGE(Multi-Image Retrieval Augmented Generation)를 소개합니다. 우리의 평가 결과, MIRAGE는 VHs 벤치마크에서 클로즈드소스 GPT-4o 모델을 최대 11% 능가하며, 텍스트 중심의 다단계 접근 방식 대비 최대 3.4배의 효율성 개선을 제공합니다.
English
Recent advancements in Large Multimodal Models (LMMs) have made significant progress in the field of single-image visual question answering. However, these models face substantial challenges when tasked with queries that span extensive collections of images, similar to real-world scenarios like searching through large photo albums, finding specific information across the internet, or monitoring environmental changes through satellite imagery. This paper explores the task of Multi-Image Visual Question Answering (MIQA): given a large set of images and a natural language query, the task is to generate a relevant and grounded response. We propose a new public benchmark, dubbed "Visual Haystacks (VHs)," specifically designed to evaluate LMMs' capabilities in visual retrieval and reasoning over sets of unrelated images, where we perform comprehensive evaluations demonstrating that even robust closed-source models struggle significantly. Towards addressing these shortcomings, we introduce MIRAGE (Multi-Image Retrieval Augmented Generation), a novel retrieval/QA framework tailored for LMMs that confronts the challenges of MIQA with marked efficiency and accuracy improvements over baseline methods. Our evaluation shows that MIRAGE surpasses closed-source GPT-4o models by up to 11% on the VHs benchmark and offers up to 3.4x improvements in efficiency over text-focused multi-stage approaches.

Summary

AI-Generated Summary

PDF24November 28, 2024