ChatPaper.aiChatPaper

ViDoRAG: 동적 반복 추론 에이전트를 통한 시각적 문서 검색 증강 생성

ViDoRAG: Visual Document Retrieval-Augmented Generation via Dynamic Iterative Reasoning Agents

February 25, 2025
저자: Qiuchen Wang, Ruixue Ding, Zehui Chen, Weiqi Wu, Shihang Wang, Pengjun Xie, Feng Zhao
cs.AI

초록

시각적으로 풍부한 문서에서 정보를 이해하는 것은 기존의 검색 증강 생성(Retrieval-Augmented Generation, RAG) 방법들에게 여전히 중요한 과제로 남아 있습니다. 기존 벤치마크는 주로 이미지 기반 질의응답(Question Answering, QA)에 초점을 맞추고 있어, 밀집된 시각적 문서 내에서의 효율적인 검색, 이해, 그리고 추론의 근본적인 문제들을 간과하고 있습니다. 이러한 격차를 해소하기 위해, 우리는 복잡한 추론이 필요한 시각적으로 풍부한 문서에서의 RAG 성능을 평가하기 위해 설계된 새로운 데이터셋인 ViDoSeek를 소개합니다. 이를 바탕으로, 우리는 현재 RAG 접근법의 주요 한계점들을 확인했습니다: (i) 순수 시각적 검색 방법은 텍스트와 시각적 특징을 효과적으로 통합하는 데 어려움을 겪으며, (ii) 이전 접근법들은 종종 충분한 추론 토큰을 할당하지 않아 그 효과가 제한적입니다. 이러한 문제를 해결하기 위해, 우리는 시각적 문서 간의 복잡한 추론을 위해 특화된 새로운 다중 에이전트 RAG 프레임워크인 ViDoRAG를 제안합니다. ViDoRAG는 다중 모달 검색을 효과적으로 처리하기 위해 가우시안 혼합 모델(Gaussian Mixture Model, GMM) 기반의 하이브리드 전략을 사용합니다. 또한, 모델의 추론 능력을 더욱 끌어내기 위해 탐색, 요약, 그리고 반성을 포함하는 반복적 에이전트 워크플로우를 도입하여, RAG 도메인에서의 테스트 시간 확장성을 조사할 수 있는 프레임워크를 제공합니다. ViDoSeek에 대한 광범위한 실험을 통해 우리의 접근법의 효과성과 일반화 능력을 검증했습니다. 특히, ViDoRAG는 경쟁력 있는 ViDoSeek 벤치마크에서 기존 방법들을 10% 이상 능가하는 성능을 보였습니다.
English
Understanding information from visually rich documents remains a significant challenge for traditional Retrieval-Augmented Generation (RAG) methods. Existing benchmarks predominantly focus on image-based question answering (QA), overlooking the fundamental challenges of efficient retrieval, comprehension, and reasoning within dense visual documents. To bridge this gap, we introduce ViDoSeek, a novel dataset designed to evaluate RAG performance on visually rich documents requiring complex reasoning. Based on it, we identify key limitations in current RAG approaches: (i) purely visual retrieval methods struggle to effectively integrate both textual and visual features, and (ii) previous approaches often allocate insufficient reasoning tokens, limiting their effectiveness. To address these challenges, we propose ViDoRAG, a novel multi-agent RAG framework tailored for complex reasoning across visual documents. ViDoRAG employs a Gaussian Mixture Model (GMM)-based hybrid strategy to effectively handle multi-modal retrieval. To further elicit the model's reasoning capabilities, we introduce an iterative agent workflow incorporating exploration, summarization, and reflection, providing a framework for investigating test-time scaling in RAG domains. Extensive experiments on ViDoSeek validate the effectiveness and generalization of our approach. Notably, ViDoRAG outperforms existing methods by over 10% on the competitive ViDoSeek benchmark.

Summary

AI-Generated Summary

PDF202March 3, 2025