ChatPaper.aiChatPaper

¿Estamos en el camino correcto para evaluar la generación aumentada con recuperación de documentos?

Are We on the Right Way for Assessing Document Retrieval-Augmented Generation?

August 5, 2025
Autores: Wenxuan Shen, Mingjia Wang, Yaochen Wang, Dongping Chen, Junjie Yang, Yao Wan, Weiwei Lin
cs.AI

Resumen

Los sistemas de Generación Aumentada por Recuperación (RAG, por sus siglas en inglés) que utilizan Modelos de Lenguaje Multimodales de Gran Escala (MLLMs) muestran un gran potencial para la comprensión de documentos complejos, aunque su desarrollo se ve gravemente obstaculizado por una evaluación inadecuada. Los puntos de referencia actuales suelen centrarse en partes específicas del sistema RAG de documentos y emplean datos sintéticos con etiquetas de verdad fundamental y evidencia incompletas, por lo que no reflejan los cuellos de botella y desafíos del mundo real. Para superar estas limitaciones, presentamos Double-Bench: un nuevo sistema de evaluación a gran escala, multilingüe y multimodal capaz de producir una evaluación detallada de cada componente dentro de los sistemas RAG de documentos. Este sistema incluye 3,276 documentos (72,880 páginas) y 5,168 consultas de uno o varios saltos en 6 idiomas y 4 tipos de documentos, con soporte dinámico actualizado para posibles problemas de contaminación de datos. Las consultas se basan en páginas de evidencia escaneadas exhaustivamente y verificadas por expertos humanos para garantizar la máxima calidad y completitud. Nuestros experimentos exhaustivos con 9 modelos de incrustación de última generación, 4 MLLMs y 4 marcos RAG de documentos de extremo a extremo demuestran que la brecha entre los modelos de incrustación de texto y visuales se está reduciendo, destacando la necesidad de construir modelos de recuperación de documentos más robustos. Nuestros hallazgos también revelan el dilema de sobreconfianza dentro de los marcos RAG de documentos actuales, que tienden a proporcionar respuestas incluso sin apoyo de evidencia. Esperamos que nuestro Double-Bench, completamente de código abierto, proporcione una base rigurosa para futuras investigaciones en sistemas RAG de documentos avanzados. Planeamos recuperar corpus oportunos y publicar nuevos puntos de referencia anualmente.
English
Retrieval-Augmented Generation (RAG) systems using Multimodal Large Language Models (MLLMs) show great promise for complex document understanding, yet their development is critically hampered by inadequate evaluation. Current benchmarks often focus on specific part of document RAG system and use synthetic data with incomplete ground truth and evidence labels, therefore failing to reflect real-world bottlenecks and challenges. To overcome these limitations, we introduce Double-Bench: a new large-scale, multilingual, and multimodal evaluation system that is able to produce fine-grained assessment to each component within document RAG systems. It comprises 3,276 documents (72,880 pages) and 5,168 single- and multi-hop queries across 6 languages and 4 document types with streamlined dynamic update support for potential data contamination issues. Queries are grounded in exhaustively scanned evidence pages and verified by human experts to ensure maximum quality and completeness. Our comprehensive experiments across 9 state-of-the-art embedding models, 4 MLLMs and 4 end-to-end document RAG frameworks demonstrate the gap between text and visual embedding models is narrowing, highlighting the need in building stronger document retrieval models. Our findings also reveal the over-confidence dilemma within current document RAG frameworks that tend to provide answer even without evidence support. We hope our fully open-source Double-Bench provide a rigorous foundation for future research in advanced document RAG systems. We plan to retrieve timely corpus and release new benchmarks on an annual basis.
PDF232August 8, 2025