ViDoRe V3: Een uitgebreide evaluatie van retrieval-augmented generation in complexe real-world scenario's
ViDoRe V3: A Comprehensive Evaluation of Retrieval Augmented Generation in Complex Real-World Scenarios
January 13, 2026
Auteurs: António Loison, Quentin Macé, Antoine Edy, Victor Xing, Tom Balough, Gabriel Moreira, Bo Liu, Manuel Faysse, Céline Hudelot, Gautier Viaud
cs.AI
Samenvatting
Retrieval-Augmented Generation (RAG)-pijplijnen moeten uitdagingen aanpakken die verder gaan dan eenvoudige enkelvoudige documentretrieval, zoals het interpreteren van visuele elementen (tabellen, grafieken, afbeeldingen), het synthetiseren van informatie uit meerdere documenten en het bieden van accurate bronverankering. Bestaande benchmarks vangen deze complexiteit niet, omdat ze zich vaak richten op tekstuele gegevens, begrip van enkelvoudige documenten, of retrieval en generatie geïsoleerd evalueren. Wij introduceren ViDoRe v3, een uitgebreide multimodale RAG-benchmark met meerdere type query's over visueel rijke documentencorpora. Deze beslaat 10 datasets uit uiteenlopende professionele domeinen, bestaande uit circa 26.000 documentpagina's gekoppeld aan 3.099 door mensen geverifieerde query's, elk beschikbaar in 6 talen. Via 12.000 uur aan menselijke annotatie-inspanning bieden we hoogwaardige annotaties voor retrievalrelevantie, begrenzingskaderlokalisatie en geverifieerde referentieantwoorden. Onze evaluatie van state-of-the-art RAG-pijplijnen toont aan dat visuele retrievers tekstuele retrievers overtreffen, dat laat-interactiemodellen en tekstuele herrangschikking de prestaties aanzienlijk verbeteren, en dat hybride of puur visuele contexten de kwaliteit van antwoordgeneratie verhogen. Desalniettemin hebben huidige modellen nog steeds moeite met niet-tekstuele elementen, open-einde query's en fijnmazige visuele verankering. Om vooruitgang in het aanpakken van deze uitdagingen aan te moedigen, wordt de benchmark vrijgegeven onder een commercieel toelaatbare licentie op https://hf.co/vidore.
English
Retrieval-Augmented Generation (RAG) pipelines must address challenges beyond simple single-document retrieval, such as interpreting visual elements (tables, charts, images), synthesizing information across documents, and providing accurate source grounding. Existing benchmarks fail to capture this complexity, often focusing on textual data, single-document comprehension, or evaluating retrieval and generation in isolation. We introduce ViDoRe v3, a comprehensive multimodal RAG benchmark featuring multi-type queries over visually rich document corpora. It covers 10 datasets across diverse professional domains, comprising ~26,000 document pages paired with 3,099 human-verified queries, each available in 6 languages. Through 12,000 hours of human annotation effort, we provide high-quality annotations for retrieval relevance, bounding box localization, and verified reference answers. Our evaluation of state-of-the-art RAG pipelines reveals that visual retrievers outperform textual ones, late-interaction models and textual reranking substantially improve performance, and hybrid or purely visual contexts enhance answer generation quality. However, current models still struggle with non-textual elements, open-ended queries, and fine-grained visual grounding. To encourage progress in addressing these challenges, the benchmark is released under a commercially permissive license at https://hf.co/vidore.