ChatPaper.aiChatPaper

ViDoRAG: Geração Aumentada por Recuperação de Documentos Visuais via Agentes de Raciocínio Iterativo Dinâmico

ViDoRAG: Visual Document Retrieval-Augmented Generation via Dynamic Iterative Reasoning Agents

February 25, 2025
Autores: Qiuchen Wang, Ruixue Ding, Zehui Chen, Weiqi Wu, Shihang Wang, Pengjun Xie, Feng Zhao
cs.AI

Resumo

Compreender informações de documentos visualmente ricos continua sendo um desafio significativo para os métodos tradicionais de Geração Aumentada por Recuperação (RAG, do inglês Retrieval-Augmented Generation). Os benchmarks existentes focam predominantemente em tarefas de questionamento e resposta (QA, do inglês Question Answering) baseadas em imagens, negligenciando os desafios fundamentais de recuperação eficiente, compreensão e raciocínio dentro de documentos visuais densos. Para preencher essa lacuna, introduzimos o ViDoSeek, um novo conjunto de dados projetado para avaliar o desempenho de RAG em documentos visualmente ricos que exigem raciocínio complexo. Com base nele, identificamos limitações-chave nas abordagens atuais de RAG: (i) métodos de recuperação puramente visuais lutam para integrar efetivamente características textuais e visuais, e (ii) abordagens anteriores frequentemente alocam tokens de raciocínio insuficientes, limitando sua eficácia. Para enfrentar esses desafios, propomos o ViDoRAG, um novo framework RAG multiagente projetado para raciocínio complexo em documentos visuais. O ViDoRAG emprega uma estratégia híbrida baseada em Modelo de Mistura Gaussiana (GMM, do inglês Gaussian Mixture Model) para lidar efetivamente com a recuperação multimodal. Para aprimorar ainda mais as capacidades de raciocínio do modelo, introduzimos um fluxo de trabalho iterativo de agentes que incorpora exploração, sumarização e reflexão, fornecendo um framework para investigar a escalabilidade em tempo de teste em domínios de RAG. Experimentos extensivos no ViDoSeek validam a eficácia e a generalização da nossa abordagem. Notavelmente, o ViDoRAG supera os métodos existentes em mais de 10% no benchmark competitivo do ViDoSeek.
English
Understanding information from visually rich documents remains a significant challenge for traditional Retrieval-Augmented Generation (RAG) methods. Existing benchmarks predominantly focus on image-based question answering (QA), overlooking the fundamental challenges of efficient retrieval, comprehension, and reasoning within dense visual documents. To bridge this gap, we introduce ViDoSeek, a novel dataset designed to evaluate RAG performance on visually rich documents requiring complex reasoning. Based on it, we identify key limitations in current RAG approaches: (i) purely visual retrieval methods struggle to effectively integrate both textual and visual features, and (ii) previous approaches often allocate insufficient reasoning tokens, limiting their effectiveness. To address these challenges, we propose ViDoRAG, a novel multi-agent RAG framework tailored for complex reasoning across visual documents. ViDoRAG employs a Gaussian Mixture Model (GMM)-based hybrid strategy to effectively handle multi-modal retrieval. To further elicit the model's reasoning capabilities, we introduce an iterative agent workflow incorporating exploration, summarization, and reflection, providing a framework for investigating test-time scaling in RAG domains. Extensive experiments on ViDoSeek validate the effectiveness and generalization of our approach. Notably, ViDoRAG outperforms existing methods by over 10% on the competitive ViDoSeek benchmark.

Summary

AI-Generated Summary

PDF202March 3, 2025