ChatPaper.aiChatPaper

Sommes-nous sur la bonne voie pour évaluer la génération augmentée par la recherche de documents ?

Are We on the Right Way for Assessing Document Retrieval-Augmented Generation?

August 5, 2025
papers.authors: Wenxuan Shen, Mingjia Wang, Yaochen Wang, Dongping Chen, Junjie Yang, Yao Wan, Weiwei Lin
cs.AI

papers.abstract

Les systèmes de Génération Augmentée par Récupération (Retrieval-Augmented Generation, RAG) utilisant des Modèles de Langage Multimodaux de Grande Taille (Multimodal Large Language Models, MLLMs) montrent un grand potentiel pour la compréhension complexe de documents, mais leur développement est freiné par une évaluation inadéquate. Les benchmarks actuels se concentrent souvent sur une partie spécifique des systèmes RAG de documents et utilisent des données synthétiques avec des étiquettes de vérité terrain et de preuves incomplètes, ne reflétant donc pas les goulots d'étranglement et les défis du monde réel. Pour surmonter ces limites, nous introduisons Double-Bench : un nouveau système d'évaluation à grande échelle, multilingue et multimodal, capable de produire une évaluation fine de chaque composant des systèmes RAG de documents. Il comprend 3 276 documents (72 880 pages) et 5 168 requêtes simples et multi-sauts dans 6 langues et 4 types de documents, avec un support de mise à jour dynamique rationalisé pour les problèmes potentiels de contamination des données. Les requêtes sont ancrées dans des pages de preuves scannées de manière exhaustive et vérifiées par des experts humains pour garantir une qualité et une complétude maximales. Nos expériences approfondies sur 9 modèles d'embedding de pointe, 4 MLLMs et 4 frameworks RAG de documents de bout en bout démontrent que l'écart entre les modèles d'embedding textuels et visuels se réduit, soulignant la nécessité de construire des modèles de récupération de documents plus robustes. Nos résultats révèlent également le dilemme de sur-confiance dans les frameworks RAG de documents actuels, qui ont tendance à fournir une réponse même sans support de preuve. Nous espérons que notre Double-Bench entièrement open-source fournira une base rigoureuse pour les recherches futures sur les systèmes RAG de documents avancés. Nous prévoyons de récupérer un corpus à jour et de publier de nouveaux benchmarks sur une base annuelle.
English
Retrieval-Augmented Generation (RAG) systems using Multimodal Large Language Models (MLLMs) show great promise for complex document understanding, yet their development is critically hampered by inadequate evaluation. Current benchmarks often focus on specific part of document RAG system and use synthetic data with incomplete ground truth and evidence labels, therefore failing to reflect real-world bottlenecks and challenges. To overcome these limitations, we introduce Double-Bench: a new large-scale, multilingual, and multimodal evaluation system that is able to produce fine-grained assessment to each component within document RAG systems. It comprises 3,276 documents (72,880 pages) and 5,168 single- and multi-hop queries across 6 languages and 4 document types with streamlined dynamic update support for potential data contamination issues. Queries are grounded in exhaustively scanned evidence pages and verified by human experts to ensure maximum quality and completeness. Our comprehensive experiments across 9 state-of-the-art embedding models, 4 MLLMs and 4 end-to-end document RAG frameworks demonstrate the gap between text and visual embedding models is narrowing, highlighting the need in building stronger document retrieval models. Our findings also reveal the over-confidence dilemma within current document RAG frameworks that tend to provide answer even without evidence support. We hope our fully open-source Double-Bench provide a rigorous foundation for future research in advanced document RAG systems. We plan to retrieve timely corpus and release new benchmarks on an annual basis.
PDF232August 8, 2025