ドキュメント検索拡張生成の評価方法は正しい方向に向かっているのか?
Are We on the Right Way for Assessing Document Retrieval-Augmented Generation?
August 5, 2025
著者: Wenxuan Shen, Mingjia Wang, Yaochen Wang, Dongping Chen, Junjie Yang, Yao Wan, Weiwei Lin
cs.AI
要旨
マルチモーダル大規模言語モデル(MLLM)を活用したRetrieval-Augmented Generation(RAG)システムは、複雑な文書理解において大きな可能性を示しているが、その開発は不十分な評価によって深刻な妨げを受けている。現在のベンチマークは、文書RAGシステムの特定の部分に焦点を当てることが多く、不完全な正解データと証拠ラベルを用いた合成データを使用しているため、現実世界のボトルネックや課題を反映できていない。これらの制限を克服するため、我々はDouble-Benchを導入する。これは、文書RAGシステム内の各コンポーネントに対して詳細な評価を可能にする、新たな大規模、多言語、マルチモーダルな評価システムである。Double-Benchは、3,276の文書(72,880ページ)と5,168の単一およびマルチホップクエリを6言語と4種類の文書タイプにわたって含み、潜在的なデータ汚染問題に対する効率的な動的更新サポートを備えている。クエリは徹底的にスキャンされた証拠ページに基づいており、人間の専門家によって検証され、最高の品質と完全性が保証されている。9つの最先端の埋め込みモデル、4つのMLLM、および4つのエンドツーエンド文書RAGフレームワークにわたる包括的な実験を通じて、テキストと視覚的埋め込みモデルの間のギャップが縮まっていることが示され、より強力な文書検索モデルの構築の必要性が強調された。また、現在の文書RAGフレームワーク内に存在する過信のジレンマが明らかになり、証拠のサポートがない場合でも回答を提供する傾向があることが示された。我々の完全にオープンソースのDouble-Benchが、将来の高度な文書RAGシステムの研究に厳密な基盤を提供することを期待している。我々は、タイムリーなコーパスの取得と新たなベンチマークの年次リリースを計画している。
English
Retrieval-Augmented Generation (RAG) systems using Multimodal Large Language
Models (MLLMs) show great promise for complex document understanding, yet their
development is critically hampered by inadequate evaluation. Current benchmarks
often focus on specific part of document RAG system and use synthetic data with
incomplete ground truth and evidence labels, therefore failing to reflect
real-world bottlenecks and challenges. To overcome these limitations, we
introduce Double-Bench: a new large-scale, multilingual, and multimodal
evaluation system that is able to produce fine-grained assessment to each
component within document RAG systems. It comprises 3,276 documents (72,880
pages) and 5,168 single- and multi-hop queries across 6 languages and 4
document types with streamlined dynamic update support for potential data
contamination issues. Queries are grounded in exhaustively scanned evidence
pages and verified by human experts to ensure maximum quality and completeness.
Our comprehensive experiments across 9 state-of-the-art embedding models, 4
MLLMs and 4 end-to-end document RAG frameworks demonstrate the gap between text
and visual embedding models is narrowing, highlighting the need in building
stronger document retrieval models. Our findings also reveal the
over-confidence dilemma within current document RAG frameworks that tend to
provide answer even without evidence support. We hope our fully open-source
Double-Bench provide a rigorous foundation for future research in advanced
document RAG systems. We plan to retrieve timely corpus and release new
benchmarks on an annual basis.