ChatPaper.aiChatPaper

ViDoRe V3:複雑な実世界シナリオにおける検索拡張生成の包括的評価

ViDoRe V3: A Comprehensive Evaluation of Retrieval Augmented Generation in Complex Real-World Scenarios

January 13, 2026
著者: António Loison, Quentin Macé, Antoine Edy, Victor Xing, Tom Balough, Gabriel Moreira, Bo Liu, Manuel Faysse, Céline Hudelot, Gautier Viaud
cs.AI

要旨

検索拡張生成(RAG)パイプラインは、単純な単一文書検索を超えた課題、例えば視覚的要素(表、図、画像)の解釈、複数文書にわたる情報の統合、正確な出典の特定などに対処する必要がある。既存のベンチマークは、テキストデータや単一文書の理解に焦点を当てる、あるいは検索と生成を個別に評価する傾向があり、この複雑性を捉えられていない。我々は、視覚的に豊富な文書コーパスに対する複数種類のクエリを特徴とする、包括的なマルチモーダルRAGベンチマーク「ViDoRe v3」を提案する。これは多様な専門分野にわたる10のデータセットを網羅し、約26,000ページの文書と3,099の人手検証済みクエリを組み合わせ、各クエリは6言語で利用可能である。12,000時間に及ぶ人手アノテーション作業を通じて、検索関連性、バウンディングボックス位置特定、検証済み参照回答に対する高品質な注釈を提供する。最先端のRAGパイプラインの評価により、視覚的検索器がテキスト検索器を上回ること、後期相互作用モデルとテキスト的再ランキングが性能を大幅に向上させること、ハイブリッドまたは純粋に視覚的な文脈が回答生成の質を高めることが明らかになった。しかし、現行のモデルは依然として非テキスト要素、自由形式のクエリ、細粒度の視覚的接地に課題を残す。これらの課題への進展を促進するため、本ベンチマークは商用利用が可能なライセンスの下、https://hf.co/vidore で公開されている。
English
Retrieval-Augmented Generation (RAG) pipelines must address challenges beyond simple single-document retrieval, such as interpreting visual elements (tables, charts, images), synthesizing information across documents, and providing accurate source grounding. Existing benchmarks fail to capture this complexity, often focusing on textual data, single-document comprehension, or evaluating retrieval and generation in isolation. We introduce ViDoRe v3, a comprehensive multimodal RAG benchmark featuring multi-type queries over visually rich document corpora. It covers 10 datasets across diverse professional domains, comprising ~26,000 document pages paired with 3,099 human-verified queries, each available in 6 languages. Through 12,000 hours of human annotation effort, we provide high-quality annotations for retrieval relevance, bounding box localization, and verified reference answers. Our evaluation of state-of-the-art RAG pipelines reveals that visual retrievers outperform textual ones, late-interaction models and textual reranking substantially improve performance, and hybrid or purely visual contexts enhance answer generation quality. However, current models still struggle with non-textual elements, open-ended queries, and fine-grained visual grounding. To encourage progress in addressing these challenges, the benchmark is released under a commercially permissive license at https://hf.co/vidore.
PDF71January 15, 2026