VisR-Bench : Une étude empirique sur la génération augmentée par récupération visuelle pour la compréhension de documents longs multilingues
VisR-Bench: An Empirical Study on Visual Retrieval-Augmented Generation for Multilingual Long Document Understanding
August 10, 2025
papers.authors: Jian Chen, Ming Li, Jihyung Kil, Chenguang Wang, Tong Yu, Ryan Rossi, Tianyi Zhou, Changyou Chen, Ruiyi Zhang
cs.AI
papers.abstract
La majorité des données organisationnelles dans le monde sont stockées sous forme de documents, et la recherche visuelle joue un rôle crucial pour débloquer l'intelligence collective contenue dans ces documents. Cependant, les benchmarks existants se concentrent principalement sur la recherche de documents en anglais ou ne considèrent que des questions-réponses multilingues sur des images d'une seule page. Pour combler cette lacune, nous introduisons VisR-Bench, un benchmark multilingue conçu pour la recherche multimodale pilotée par des questions dans des documents longs. Notre benchmark comprend plus de 35 000 paires de questions-réponses de haute qualité réparties sur 1 200 documents, permettant une évaluation fine de la recherche multimodale. VisR-Bench couvre seize langues avec trois types de questions (figures, texte et tableaux), offrant ainsi une diversité linguistique et une couverture variée des questions. Contrairement aux jeux de données précédents, nous incluons des requêtes sans réponses explicites, empêchant les modèles de s'appuyer sur une correspondance superficielle de mots-clés. Nous évaluons divers modèles de recherche, incluant des méthodes basées sur le texte, des encodeurs multimodaux et des MLLMs (modèles de langage multimodaux), fournissant ainsi des insights sur leurs forces et leurs limites. Nos résultats montrent que, bien que les MLLMs surpassent significativement les modèles basés sur le texte et les encodeurs multimodaux, ils rencontrent encore des difficultés avec les tableaux structurés et les langues à ressources limitées, mettant en lumière des défis clés dans la recherche visuelle multilingue.
English
Most organizational data in this world are stored as documents, and visual
retrieval plays a crucial role in unlocking the collective intelligence from
all these documents. However, existing benchmarks focus on English-only
document retrieval or only consider multilingual question-answering on a
single-page image. To bridge this gap, we introduce VisR-Bench, a multilingual
benchmark designed for question-driven multimodal retrieval in long documents.
Our benchmark comprises over 35K high-quality QA pairs across 1.2K documents,
enabling fine-grained evaluation of multimodal retrieval. VisR-Bench spans
sixteen languages with three question types (figures, text, and tables),
offering diverse linguistic and question coverage. Unlike prior datasets, we
include queries without explicit answers, preventing models from relying on
superficial keyword matching. We evaluate various retrieval models, including
text-based methods, multimodal encoders, and MLLMs, providing insights into
their strengths and limitations. Our results show that while MLLMs
significantly outperform text-based and multimodal encoder models, they still
struggle with structured tables and low-resource languages, highlighting key
challenges in multilingual visual retrieval.