ViDoRe V3: 복잡한 실제 환경에서의 검색 증강 생성 종합 평가
ViDoRe V3: A Comprehensive Evaluation of Retrieval Augmented Generation in Complex Real-World Scenarios
January 13, 2026
저자: António Loison, Quentin Macé, Antoine Edy, Victor Xing, Tom Balough, Gabriel Moreira, Bo Liu, Manuel Faysse, Céline Hudelot, Gautier Viaud
cs.AI
초록
검색 증대 생성(RAG) 파이프라인은 단일 문서 검색 이상의 과제를 해결해야 하며, 여기에는 시각적 요소(표, 차트, 이미지) 해석, 여러 문서에 걸친 정보 종합, 정확한 출처 기반 마련 등이 포함됩니다. 기존 벤치마크는 텍스트 데이터나 단일 문서 이해에 집중하거나 검색과 생성을 별도로 평가하는 등 이러한 복잡성을 제대로 반영하지 못하고 있습니다. 본 연구에서는 시각적으로 풍부한 문서 컬렉션에 대한 다양한 유형의 질의를 특징으로 하는 종합적인 멀티모달 RAG 벤치마크인 ViDoRe v3를 소개합니다. 이 벤치마크는 다양한 전문 분야의 10개 데이터셋을 아우르며, 약 26,000개의 문서 페이지와 3,099개의 인간 검증 질의로 구성되어 있으며, 각 질의는 6개 언어로 제공됩니다. 12,000시간에 달하는 인간 주석 작업을 통해 검색 관련성, 바운딩 박스 위치 지정, 검증된 참조 답변에 대한 고품질 주석을 제공합니다. 최첨단 RAG 파이프라인 평가 결과, 시각적 검색 모델이 텍스트 기반 검색 모델보다 성능이 우수하며, 후기 상호작용 모델과 텍스트 재순위 지정이 성능을 크게 향상시키고, 하이브리드 또는 순수 시각적 컨텍스트가 답변 생성 품질을 높이는 것으로 나타났습니다. 그러나 현재 모델들은 비텍스트 요소, 개방형 질의, 세밀한 시각적 기반 학습에서 여전히 어려움을 겪고 있습니다. 이러한 과제 해결을 위한 발전을 촉진하기 위해 본 벤치마크는 상용 허가 라이선스 하에 https://hf.co/vidore에서 공개되었습니다.
English
Retrieval-Augmented Generation (RAG) pipelines must address challenges beyond simple single-document retrieval, such as interpreting visual elements (tables, charts, images), synthesizing information across documents, and providing accurate source grounding. Existing benchmarks fail to capture this complexity, often focusing on textual data, single-document comprehension, or evaluating retrieval and generation in isolation. We introduce ViDoRe v3, a comprehensive multimodal RAG benchmark featuring multi-type queries over visually rich document corpora. It covers 10 datasets across diverse professional domains, comprising ~26,000 document pages paired with 3,099 human-verified queries, each available in 6 languages. Through 12,000 hours of human annotation effort, we provide high-quality annotations for retrieval relevance, bounding box localization, and verified reference answers. Our evaluation of state-of-the-art RAG pipelines reveals that visual retrievers outperform textual ones, late-interaction models and textual reranking substantially improve performance, and hybrid or purely visual contexts enhance answer generation quality. However, current models still struggle with non-textual elements, open-ended queries, and fine-grained visual grounding. To encourage progress in addressing these challenges, the benchmark is released under a commercially permissive license at https://hf.co/vidore.