ChatPaper.aiChatPaper

ViDoRe V3: Evaluación Integral de la Generación Aumentada por Recuperación en Escenarios Complejos del Mundo Real

ViDoRe V3: A Comprehensive Evaluation of Retrieval Augmented Generation in Complex Real-World Scenarios

January 13, 2026
Autores: António Loison, Quentin Macé, Antoine Edy, Victor Xing, Tom Balough, Gabriel Moreira, Bo Liu, Manuel Faysse, Céline Hudelot, Gautier Viaud
cs.AI

Resumen

Los sistemas de Generación Aumentada por Recuperación (RAG) deben abordar desafíos que van más allá de la simple recuperación de documentos individuales, como la interpretación de elementos visuales (tablas, gráficos, imágenes), la síntesis de información entre documentos y la provisión de una atribución precisa de fuentes. Los puntos de referencia existentes no logran capturar esta complejidad, ya que suelen centrarse en datos textuales, en la comprensión de documentos individuales o en evaluar la recuperación y la generación de forma aislada. Presentamos ViDoRe v3, un punto de referencia multimodal integral para RAG que incluye consultas de múltiples tipos sobre corpus de documentos visualmente ricos. Abarca 10 conjuntos de datos de diversos dominios profesionales, que comprenden aproximadamente 26.000 páginas de documentos emparejadas con 3.099 consultas verificadas por humanos, cada una disponible en 6 idiomas. Mediante 12.000 horas de trabajo de anotación humana, proporcionamos anotaciones de alta calidad para la relevancia en la recuperación, la localización mediante cuadros delimitadores y respuestas de referencia verificadas. Nuestra evaluación de los sistemas RAG más avanzados revela que los recuperadores visuales superan a los textuales, que los modelos de interacción tardía y la reordenación textual mejoran sustancialmente el rendimiento, y que los contextos híbridos o puramente visuales mejoran la calidad de la generación de respuestas. Sin embargo, los modelos actuales aún tienen dificultades con los elementos no textuales, las consultas abiertas y la localización visual de grano fino. Para fomentar el progreso en la resolución de estos desafíos, el benchmark se publica bajo una licencia comercialmente permisiva en https://hf.co/vidore.
English
Retrieval-Augmented Generation (RAG) pipelines must address challenges beyond simple single-document retrieval, such as interpreting visual elements (tables, charts, images), synthesizing information across documents, and providing accurate source grounding. Existing benchmarks fail to capture this complexity, often focusing on textual data, single-document comprehension, or evaluating retrieval and generation in isolation. We introduce ViDoRe v3, a comprehensive multimodal RAG benchmark featuring multi-type queries over visually rich document corpora. It covers 10 datasets across diverse professional domains, comprising ~26,000 document pages paired with 3,099 human-verified queries, each available in 6 languages. Through 12,000 hours of human annotation effort, we provide high-quality annotations for retrieval relevance, bounding box localization, and verified reference answers. Our evaluation of state-of-the-art RAG pipelines reveals that visual retrievers outperform textual ones, late-interaction models and textual reranking substantially improve performance, and hybrid or purely visual contexts enhance answer generation quality. However, current models still struggle with non-textual elements, open-ended queries, and fine-grained visual grounding. To encourage progress in addressing these challenges, the benchmark is released under a commercially permissive license at https://hf.co/vidore.
PDF71January 15, 2026