ChatPaper.aiChatPaper

Идем ли мы правильным путем в оценке генерации, дополненной поиском документов?

Are We on the Right Way for Assessing Document Retrieval-Augmented Generation?

August 5, 2025
Авторы: Wenxuan Shen, Mingjia Wang, Yaochen Wang, Dongping Chen, Junjie Yang, Yao Wan, Weiwei Lin
cs.AI

Аннотация

Системы генерации с использованием извлечения информации (Retrieval-Augmented Generation, RAG) на основе мультимодальных больших языковых моделей (Multimodal Large Language Models, MLLMs) демонстрируют значительный потенциал для сложного понимания документов, однако их развитие серьезно ограничивается недостаточной оценкой. Современные бенчмарки часто фокусируются на отдельных аспектах систем RAG и используют синтетические данные с неполными эталонными метками и доказательствами, что не отражает реальные проблемы и узкие места. Чтобы преодолеть эти ограничения, мы представляем Double-Bench: новую крупномасштабную, многоязычную и мультимодальную систему оценки, способную проводить детальный анализ каждого компонента в системах RAG для документов. Она включает 3 276 документов (72 880 страниц) и 5 168 одно- и многошаговых запросов на 6 языках и для 4 типов документов с поддержкой динамического обновления для предотвращения проблем с контаминацией данных. Запросы основаны на тщательно просканированных страницах с доказательствами и проверены экспертами для обеспечения максимального качества и полноты. Наши комплексные эксперименты с 9 современными моделями векторного представления, 4 MLLM и 4 end-to-end фреймворками RAG для документов показывают, что разрыв между текстовыми и визуальными моделями векторного представления сокращается, что подчеркивает необходимость создания более мощных моделей для извлечения документов. Наши результаты также выявляют проблему излишней уверенности в современных фреймворках RAG, которые склонны предоставлять ответы даже без поддержки доказательств. Мы надеемся, что наш полностью открытый Double-Bench станет строгой основой для будущих исследований в области продвинутых систем RAG для документов. Мы планируем регулярно обновлять корпус данных и выпускать новые бенчмарки на ежегодной основе.
English
Retrieval-Augmented Generation (RAG) systems using Multimodal Large Language Models (MLLMs) show great promise for complex document understanding, yet their development is critically hampered by inadequate evaluation. Current benchmarks often focus on specific part of document RAG system and use synthetic data with incomplete ground truth and evidence labels, therefore failing to reflect real-world bottlenecks and challenges. To overcome these limitations, we introduce Double-Bench: a new large-scale, multilingual, and multimodal evaluation system that is able to produce fine-grained assessment to each component within document RAG systems. It comprises 3,276 documents (72,880 pages) and 5,168 single- and multi-hop queries across 6 languages and 4 document types with streamlined dynamic update support for potential data contamination issues. Queries are grounded in exhaustively scanned evidence pages and verified by human experts to ensure maximum quality and completeness. Our comprehensive experiments across 9 state-of-the-art embedding models, 4 MLLMs and 4 end-to-end document RAG frameworks demonstrate the gap between text and visual embedding models is narrowing, highlighting the need in building stronger document retrieval models. Our findings also reveal the over-confidence dilemma within current document RAG frameworks that tend to provide answer even without evidence support. We hope our fully open-source Double-Bench provide a rigorous foundation for future research in advanced document RAG systems. We plan to retrieve timely corpus and release new benchmarks on an annual basis.
PDF232August 8, 2025