ChatPaper.aiChatPaper

Sind wir auf dem richtigen Weg zur Bewertung von dokumentenbasierter, retrieval-augmentierter Generierung?

Are We on the Right Way for Assessing Document Retrieval-Augmented Generation?

August 5, 2025
papers.authors: Wenxuan Shen, Mingjia Wang, Yaochen Wang, Dongping Chen, Junjie Yang, Yao Wan, Weiwei Lin
cs.AI

papers.abstract

Retrieval-Augmented Generation (RAG)-Systeme, die Multimodale Große Sprachmodelle (MLLMs) verwenden, zeigen großes Potenzial für das Verständnis komplexer Dokumente, doch ihre Entwicklung wird kritisch durch unzureichende Evaluierung behindert. Aktuelle Benchmarks konzentrieren sich oft auf spezifische Teile von Dokument-RAG-Systemen und verwenden synthetische Daten mit unvollständigen Ground-Truth- und Evidenzlabels, wodurch sie die realen Engpässe und Herausforderungen nicht widerspiegeln. Um diese Einschränkungen zu überwinden, stellen wir Double-Bench vor: ein neues groß angelegtes, mehrsprachiges und multimodales Evaluierungssystem, das in der Lage ist, eine detaillierte Bewertung jeder Komponente innerhalb von Dokument-RAG-Systemen zu liefern. Es umfasst 3.276 Dokumente (72.880 Seiten) und 5.168 Einzel- und Mehrschritt-Abfragen in 6 Sprachen und 4 Dokumenttypen mit optimierter dynamischer Aktualisierungsunterstützung für potenzielle Datenkontaminationsprobleme. Die Abfragen basieren auf umfassend gescannten Evidenzseiten und wurden von menschlichen Experten verifiziert, um maximale Qualität und Vollständigkeit zu gewährleisten. Unsere umfangreichen Experimente mit 9 state-of-the-art Embedding-Modellen, 4 MLLMs und 4 end-to-end Dokument-RAG-Frameworks zeigen, dass die Lücke zwischen Text- und visuellen Embedding-Modellen schrumpft, was die Notwendigkeit stärkerer Dokument-Retrieval-Modelle unterstreicht. Unsere Ergebnisse offenbaren auch das Übervertrauens-Dilemma in aktuellen Dokument-RAG-Frameworks, die dazu neigen, Antworten zu liefern, selbst ohne Evidenzunterstützung. Wir hoffen, dass unser vollständig quelloffenes Double-Bench eine solide Grundlage für zukünftige Forschungen in fortgeschrittenen Dokument-RAG-Systemen bietet. Wir planen, zeitnahe Korpora zu erfassen und jährlich neue Benchmarks zu veröffentlichen.
English
Retrieval-Augmented Generation (RAG) systems using Multimodal Large Language Models (MLLMs) show great promise for complex document understanding, yet their development is critically hampered by inadequate evaluation. Current benchmarks often focus on specific part of document RAG system and use synthetic data with incomplete ground truth and evidence labels, therefore failing to reflect real-world bottlenecks and challenges. To overcome these limitations, we introduce Double-Bench: a new large-scale, multilingual, and multimodal evaluation system that is able to produce fine-grained assessment to each component within document RAG systems. It comprises 3,276 documents (72,880 pages) and 5,168 single- and multi-hop queries across 6 languages and 4 document types with streamlined dynamic update support for potential data contamination issues. Queries are grounded in exhaustively scanned evidence pages and verified by human experts to ensure maximum quality and completeness. Our comprehensive experiments across 9 state-of-the-art embedding models, 4 MLLMs and 4 end-to-end document RAG frameworks demonstrate the gap between text and visual embedding models is narrowing, highlighting the need in building stronger document retrieval models. Our findings also reveal the over-confidence dilemma within current document RAG frameworks that tend to provide answer even without evidence support. We hope our fully open-source Double-Bench provide a rigorous foundation for future research in advanced document RAG systems. We plan to retrieve timely corpus and release new benchmarks on an annual basis.
PDF232August 8, 2025