ViDoRe V3 : Évaluation exhaustive de la génération augmentée par la récupération dans des scénarios réels complexes
ViDoRe V3: A Comprehensive Evaluation of Retrieval Augmented Generation in Complex Real-World Scenarios
January 13, 2026
papers.authors: António Loison, Quentin Macé, Antoine Edy, Victor Xing, Tom Balough, Gabriel Moreira, Bo Liu, Manuel Faysse, Céline Hudelot, Gautier Viaud
cs.AI
papers.abstract
Les systèmes de génération augmentée par récupération (RAG) doivent relever des défis dépassant la simple récupération de documents uniques, tels que l'interprétation d'éléments visuels (tableaux, graphiques, images), la synthèse d'informations issues de multiples documents et l'attribution précise des sources. Les benchmarks existants ne capturent pas cette complexité, se concentrant souvent sur des données textuelles, la compréhension de documents uniques, ou l'évaluation isolée de la récupération et de la génération. Nous présentons ViDoRe v3, un benchmark multimodal complet pour RAG, incluant des requêtes de types variés sur des corpus de documents visuellement riches. Il couvre 10 jeux de données provenant de divers domaines professionnels, comprenant environ 26 000 pages de documents associées à 3 099 requêtes vérifiées manuellement, chacune disponible en 6 langues. Grâce à 12 000 heures de travail d'annotation humaine, nous fournissons des annotations de haute qualité pour la pertinence de la récupération, la localisation par boîtes englobantes et des réponses de référence vérifiées. Notre évaluation des pipelines RAG les plus avancés révèle que les systèmes de récupération visuelle surpassent les systèmes textuels, que les modèles à interaction tardive et le reranking textuel améliorent substantiellement les performances, et que les contextes hybrides ou purement visuels améliorent la qualité de la génération de réponses. Cependant, les modèles actuels peinent encore avec les éléments non textuels, les requêtes ouvertes et l'ancrage visuel fin. Pour encourager les progrès dans la résolution de ces défis, le benchmark est publié sous une licence commerciale permissive à l'adresse https://hf.co/vidore.
English
Retrieval-Augmented Generation (RAG) pipelines must address challenges beyond simple single-document retrieval, such as interpreting visual elements (tables, charts, images), synthesizing information across documents, and providing accurate source grounding. Existing benchmarks fail to capture this complexity, often focusing on textual data, single-document comprehension, or evaluating retrieval and generation in isolation. We introduce ViDoRe v3, a comprehensive multimodal RAG benchmark featuring multi-type queries over visually rich document corpora. It covers 10 datasets across diverse professional domains, comprising ~26,000 document pages paired with 3,099 human-verified queries, each available in 6 languages. Through 12,000 hours of human annotation effort, we provide high-quality annotations for retrieval relevance, bounding box localization, and verified reference answers. Our evaluation of state-of-the-art RAG pipelines reveals that visual retrievers outperform textual ones, late-interaction models and textual reranking substantially improve performance, and hybrid or purely visual contexts enhance answer generation quality. However, current models still struggle with non-textual elements, open-ended queries, and fine-grained visual grounding. To encourage progress in addressing these challenges, the benchmark is released under a commercially permissive license at https://hf.co/vidore.