ChatPaper.aiChatPaper

Estamos no Caminho Certo para Avaliar a Geração Aumentada por Recuperação de Documentos?

Are We on the Right Way for Assessing Document Retrieval-Augmented Generation?

August 5, 2025
Autores: Wenxuan Shen, Mingjia Wang, Yaochen Wang, Dongping Chen, Junjie Yang, Yao Wan, Weiwei Lin
cs.AI

Resumo

Sistemas de Geração Aumentada por Recuperação (RAG, do inglês Retrieval-Augmented Generation) que utilizam Modelos de Linguagem Multimodais de Grande Escala (MLLMs, do inglês Multimodal Large Language Models) mostram grande potencial para a compreensão complexa de documentos, mas seu desenvolvimento é seriamente prejudicado pela avaliação inadequada. Os benchmarks atuais frequentemente se concentram em partes específicas do sistema RAG de documentos e utilizam dados sintéticos com rótulos de verdade fundamental e evidências incompletos, falhando assim em refletir os gargalos e desafios do mundo real. Para superar essas limitações, introduzimos o Double-Bench: um novo sistema de avaliação em larga escala, multilíngue e multimodal, capaz de produzir uma avaliação detalhada de cada componente dentro dos sistemas RAG de documentos. Ele compreende 3.276 documentos (72.880 páginas) e 5.168 consultas de salto único e múltiplo em 6 idiomas e 4 tipos de documentos, com suporte dinâmico simplificado para possíveis problemas de contaminação de dados. As consultas são fundamentadas em páginas de evidências exaustivamente verificadas e validadas por especialistas humanos para garantir máxima qualidade e completude. Nossos experimentos abrangentes com 9 modelos de incorporação de última geração, 4 MLLMs e 4 frameworks RAG de documentos de ponta a ponta demonstram que a lacuna entre modelos de incorporação de texto e visuais está diminuindo, destacando a necessidade de construir modelos de recuperação de documentos mais robustos. Nossas descobertas também revelam o dilema de excesso de confiança nos frameworks RAG de documentos atuais, que tendem a fornecer respostas mesmo sem suporte de evidências. Esperamos que nosso Double-Bench, totalmente de código aberto, forneça uma base rigorosa para pesquisas futuras em sistemas RAG de documentos avançados. Planejamos recuperar corpus atualizados e lançar novos benchmarks anualmente.
English
Retrieval-Augmented Generation (RAG) systems using Multimodal Large Language Models (MLLMs) show great promise for complex document understanding, yet their development is critically hampered by inadequate evaluation. Current benchmarks often focus on specific part of document RAG system and use synthetic data with incomplete ground truth and evidence labels, therefore failing to reflect real-world bottlenecks and challenges. To overcome these limitations, we introduce Double-Bench: a new large-scale, multilingual, and multimodal evaluation system that is able to produce fine-grained assessment to each component within document RAG systems. It comprises 3,276 documents (72,880 pages) and 5,168 single- and multi-hop queries across 6 languages and 4 document types with streamlined dynamic update support for potential data contamination issues. Queries are grounded in exhaustively scanned evidence pages and verified by human experts to ensure maximum quality and completeness. Our comprehensive experiments across 9 state-of-the-art embedding models, 4 MLLMs and 4 end-to-end document RAG frameworks demonstrate the gap between text and visual embedding models is narrowing, highlighting the need in building stronger document retrieval models. Our findings also reveal the over-confidence dilemma within current document RAG frameworks that tend to provide answer even without evidence support. We hope our fully open-source Double-Bench provide a rigorous foundation for future research in advanced document RAG systems. We plan to retrieve timely corpus and release new benchmarks on an annual basis.
PDF252August 8, 2025