Zijn We op de Juiste Weg voor het Evalueren van Document Retrieval-Augmented Generatie?
Are We on the Right Way for Assessing Document Retrieval-Augmented Generation?
August 5, 2025
Auteurs: Wenxuan Shen, Mingjia Wang, Yaochen Wang, Dongping Chen, Junjie Yang, Yao Wan, Weiwei Lin
cs.AI
Samenvatting
Retrieval-Augmented Generation (RAG)-systemen die gebruikmaken van Multimodale Large Language Models (MLLMs) tonen veelbelovende resultaten voor complex documentbegrip, maar hun ontwikkeling wordt ernstig belemmerd door ontoereikende evaluatie. Huidige benchmarks richten zich vaak op specifieke onderdelen van document-RAG-systemen en gebruiken synthetische data met onvolledige grondwaarheden en bewijslabels, waardoor ze de knelpunten en uitdagingen uit de praktijk niet weerspiegelen. Om deze beperkingen te overwinnen, introduceren we Double-Bench: een nieuw grootschalig, meertalig en multimodaal evaluatiesysteem dat in staat is om een gedetailleerde beoordeling te geven van elk onderdeel binnen document-RAG-systemen. Het omvat 3.276 documenten (72.880 pagina's) en 5.168 enkelvoudige en multi-hop queries in 6 talen en 4 documenttypen, met gestroomlijnde dynamische update-ondersteuning voor potentiële problemen met datacontaminatie. Queries zijn gebaseerd op uitgebreid gescande bewijspagina's en zijn door menselijke experts geverifieerd om maximale kwaliteit en volledigheid te garanderen. Onze uitgebreide experimenten met 9 state-of-the-art embeddingmodellen, 4 MLLMs en 4 end-to-end document-RAG-frameworks tonen aan dat de kloof tussen tekst- en visuele embeddingmodellen kleiner wordt, wat de noodzaak benadrukt om sterkere documentretrievalmodellen te ontwikkelen. Onze bevindingen onthullen ook het overmoed-dilemma binnen huidige document-RAG-frameworks, die geneigd zijn antwoorden te geven zelfs zonder ondersteunend bewijs. We hopen dat ons volledig open-source Double-Bench een rigoureuze basis biedt voor toekomstig onderzoek naar geavanceerde document-RAG-systemen. We zijn van plan om tijdige corpora te verzamelen en jaarlijks nieuwe benchmarks uit te brengen.
English
Retrieval-Augmented Generation (RAG) systems using Multimodal Large Language
Models (MLLMs) show great promise for complex document understanding, yet their
development is critically hampered by inadequate evaluation. Current benchmarks
often focus on specific part of document RAG system and use synthetic data with
incomplete ground truth and evidence labels, therefore failing to reflect
real-world bottlenecks and challenges. To overcome these limitations, we
introduce Double-Bench: a new large-scale, multilingual, and multimodal
evaluation system that is able to produce fine-grained assessment to each
component within document RAG systems. It comprises 3,276 documents (72,880
pages) and 5,168 single- and multi-hop queries across 6 languages and 4
document types with streamlined dynamic update support for potential data
contamination issues. Queries are grounded in exhaustively scanned evidence
pages and verified by human experts to ensure maximum quality and completeness.
Our comprehensive experiments across 9 state-of-the-art embedding models, 4
MLLMs and 4 end-to-end document RAG frameworks demonstrate the gap between text
and visual embedding models is narrowing, highlighting the need in building
stronger document retrieval models. Our findings also reveal the
over-confidence dilemma within current document RAG frameworks that tend to
provide answer even without evidence support. We hope our fully open-source
Double-Bench provide a rigorous foundation for future research in advanced
document RAG systems. We plan to retrieve timely corpus and release new
benchmarks on an annual basis.