Stiamo seguendo la strada giusta per valutare la generazione aumentata dal recupero di documenti?
Are We on the Right Way for Assessing Document Retrieval-Augmented Generation?
August 5, 2025
Autori: Wenxuan Shen, Mingjia Wang, Yaochen Wang, Dongping Chen, Junjie Yang, Yao Wan, Weiwei Lin
cs.AI
Abstract
I sistemi di Generazione Aumentata dal Recupero (Retrieval-Augmented Generation, RAG) che utilizzano Modelli Linguistici Multimodali di Grande Scala (Multimodal Large Language Models, MLLMs) mostrano un grande potenziale per la comprensione complessa di documenti, ma il loro sviluppo è fortemente ostacolato da una valutazione inadeguata. Gli attuali benchmark si concentrano spesso su parti specifiche dei sistemi RAG per documenti e utilizzano dati sintetici con etichette di verità di base e prove incomplete, fallendo quindi nel riflettere i colli di bottiglia e le sfide del mondo reale. Per superare queste limitazioni, introduciamo Double-Bench: un nuovo sistema di valutazione su larga scala, multilingue e multimodale in grado di produrre una valutazione granulare per ciascun componente all'interno dei sistemi RAG per documenti. Esso comprende 3.276 documenti (72.880 pagine) e 5.168 query a singolo e multi-hop in 6 lingue e 4 tipi di documenti, con supporto dinamico per aggiornamenti semplificati per potenziali problemi di contaminazione dei dati. Le query sono basate su pagine di prove scansionate in modo esaustivo e verificate da esperti umani per garantire la massima qualità e completezza. I nostri esperimenti completi su 9 modelli di embedding all'avanguardia, 4 MLLM e 4 framework RAG per documenti end-to-end dimostrano che il divario tra i modelli di embedding testuali e visivi si sta riducendo, evidenziando la necessità di costruire modelli di recupero documentale più robusti. Le nostre scoperte rivelano anche il dilemma dell'eccessiva sicurezza all'interno degli attuali framework RAG per documenti, che tendono a fornire risposte anche senza supporto di prove. Speriamo che il nostro Double-Bench completamente open-source fornisca una base rigorosa per la ricerca futura sui sistemi RAG avanzati per documenti. Pianifichiamo di recuperare corpus tempestivi e rilasciare nuovi benchmark su base annuale.
English
Retrieval-Augmented Generation (RAG) systems using Multimodal Large Language
Models (MLLMs) show great promise for complex document understanding, yet their
development is critically hampered by inadequate evaluation. Current benchmarks
often focus on specific part of document RAG system and use synthetic data with
incomplete ground truth and evidence labels, therefore failing to reflect
real-world bottlenecks and challenges. To overcome these limitations, we
introduce Double-Bench: a new large-scale, multilingual, and multimodal
evaluation system that is able to produce fine-grained assessment to each
component within document RAG systems. It comprises 3,276 documents (72,880
pages) and 5,168 single- and multi-hop queries across 6 languages and 4
document types with streamlined dynamic update support for potential data
contamination issues. Queries are grounded in exhaustively scanned evidence
pages and verified by human experts to ensure maximum quality and completeness.
Our comprehensive experiments across 9 state-of-the-art embedding models, 4
MLLMs and 4 end-to-end document RAG frameworks demonstrate the gap between text
and visual embedding models is narrowing, highlighting the need in building
stronger document retrieval models. Our findings also reveal the
over-confidence dilemma within current document RAG frameworks that tend to
provide answer even without evidence support. We hope our fully open-source
Double-Bench provide a rigorous foundation for future research in advanced
document RAG systems. We plan to retrieve timely corpus and release new
benchmarks on an annual basis.