문서 검색 강화 생성 평가를 위한 올바른 방향으로 나아가고 있는가?
Are We on the Right Way for Assessing Document Retrieval-Augmented Generation?
August 5, 2025
저자: Wenxuan Shen, Mingjia Wang, Yaochen Wang, Dongping Chen, Junjie Yang, Yao Wan, Weiwei Lin
cs.AI
초록
멀티모달 대형 언어 모델(MLLM)을 활용한 검색 증강 생성(Retrieval-Augmented Generation, RAG) 시스템은 복잡한 문서 이해에 있어 큰 잠재력을 보여주고 있지만, 이들의 개발은 부적절한 평가로 인해 심각하게 저해되고 있다. 현재의 벤치마크는 종종 문서 RAG 시스템의 특정 부분에 초점을 맞추고, 불완전한 정답 및 증거 레이블을 가진 합성 데이터를 사용함으로써 실제 세계의 병목 현상과 도전 과제를 반영하지 못하고 있다. 이러한 한계를 극복하기 위해, 우리는 Double-Bench를 소개한다: 이는 문서 RAG 시스템 내 각 구성 요소에 대한 세밀한 평가를 가능하게 하는 새로운 대규모, 다국어, 다중모달 평가 시스템이다. 이 시스템은 3,276개의 문서(72,880페이지)와 6개 언어 및 4가지 문서 유형에 걸친 5,168개의 단일 및 다중 홉 쿼리로 구성되어 있으며, 잠재적인 데이터 오염 문제를 위한 간소화된 동적 업데이트 지원을 제공한다. 쿼리는 철저히 스캔된 증거 페이지에 기반을 두고 있으며, 최대의 품질과 완전성을 보장하기 위해 인간 전문가에 의해 검증되었다. 9개의 최첨단 임베딩 모델, 4개의 MLLM 및 4개의 종단간 문서 RAG 프레임워크에 걸친 우리의 포괄적인 실험은 텍스트와 시각 임베딩 모델 간의 격차가 좁아지고 있음을 보여주며, 더 강력한 문서 검색 모델 구축의 필요성을 강조한다. 우리의 연구 결과는 또한 증거 지원 없이도 답변을 제공하려는 현재 문서 RAG 프레임워크 내의 과도한 자신감 딜레마를 드러낸다. 우리는 완전히 오픈소스인 Double-Bench가 향후 고급 문서 RAG 시스템 연구를 위한 엄격한 기반을 제공하기를 바란다. 우리는 시의적절한 코퍼스를 검색하고 매년 새로운 벤치마크를 출시할 계획이다.
English
Retrieval-Augmented Generation (RAG) systems using Multimodal Large Language
Models (MLLMs) show great promise for complex document understanding, yet their
development is critically hampered by inadequate evaluation. Current benchmarks
often focus on specific part of document RAG system and use synthetic data with
incomplete ground truth and evidence labels, therefore failing to reflect
real-world bottlenecks and challenges. To overcome these limitations, we
introduce Double-Bench: a new large-scale, multilingual, and multimodal
evaluation system that is able to produce fine-grained assessment to each
component within document RAG systems. It comprises 3,276 documents (72,880
pages) and 5,168 single- and multi-hop queries across 6 languages and 4
document types with streamlined dynamic update support for potential data
contamination issues. Queries are grounded in exhaustively scanned evidence
pages and verified by human experts to ensure maximum quality and completeness.
Our comprehensive experiments across 9 state-of-the-art embedding models, 4
MLLMs and 4 end-to-end document RAG frameworks demonstrate the gap between text
and visual embedding models is narrowing, highlighting the need in building
stronger document retrieval models. Our findings also reveal the
over-confidence dilemma within current document RAG frameworks that tend to
provide answer even without evidence support. We hope our fully open-source
Double-Bench provide a rigorous foundation for future research in advanced
document RAG systems. We plan to retrieve timely corpus and release new
benchmarks on an annual basis.