VisR-Bench: 多言語長文書理解のための視覚的検索拡張生成に関する実証研究
VisR-Bench: An Empirical Study on Visual Retrieval-Augmented Generation for Multilingual Long Document Understanding
August 10, 2025
著者: Jian Chen, Ming Li, Jihyung Kil, Chenguang Wang, Tong Yu, Ryan Rossi, Tianyi Zhou, Changyou Chen, Ruiyi Zhang
cs.AI
要旨
この世界の組織データの大部分は文書として保存されており、視覚的検索はこれらの文書から集団的知能を引き出す上で重要な役割を果たしています。しかし、既存のベンチマークは英語のみの文書検索に焦点を当てているか、単一ページの画像に対する多言語質問応答のみを考慮しています。このギャップを埋めるため、我々はVisR-Benchを導入します。これは、長文書における質問駆動型のマルチモーダル検索のために設計された多言語ベンチマークです。我々のベンチマークは、1.2Kの文書にわたる35K以上の高品質なQAペアを含み、マルチモーダル検索の詳細な評価を可能にします。VisR-Benchは16の言語をカバーし、3つの質問タイプ(図、テキスト、表)を提供し、多様な言語的および質問的カバレッジを提供します。従来のデータセットとは異なり、我々は明示的な回答のないクエリを含めることで、モデルが表面的なキーワードマッチングに依存することを防ぎます。我々は、テキストベースの手法、マルチモーダルエンコーダ、およびMLLMを含むさまざまな検索モデルを評価し、それらの強みと限界についての洞察を提供します。我々の結果は、MLLMがテキストベースおよびマルチモーダルエンコーダモデルを大幅に上回る一方で、構造化された表や低リソース言語において依然として苦戦していることを示しており、多言語視覚検索における主要な課題を浮き彫りにしています。
English
Most organizational data in this world are stored as documents, and visual
retrieval plays a crucial role in unlocking the collective intelligence from
all these documents. However, existing benchmarks focus on English-only
document retrieval or only consider multilingual question-answering on a
single-page image. To bridge this gap, we introduce VisR-Bench, a multilingual
benchmark designed for question-driven multimodal retrieval in long documents.
Our benchmark comprises over 35K high-quality QA pairs across 1.2K documents,
enabling fine-grained evaluation of multimodal retrieval. VisR-Bench spans
sixteen languages with three question types (figures, text, and tables),
offering diverse linguistic and question coverage. Unlike prior datasets, we
include queries without explicit answers, preventing models from relying on
superficial keyword matching. We evaluate various retrieval models, including
text-based methods, multimodal encoders, and MLLMs, providing insights into
their strengths and limitations. Our results show that while MLLMs
significantly outperform text-based and multimodal encoder models, they still
struggle with structured tables and low-resource languages, highlighting key
challenges in multilingual visual retrieval.