ChatPaper.aiChatPaper

VisR-Bench : Une étude empirique sur la génération augmentée par récupération visuelle pour la compréhension de documents longs multilingues

VisR-Bench: An Empirical Study on Visual Retrieval-Augmented Generation for Multilingual Long Document Understanding

August 10, 2025
papers.authors: Jian Chen, Ming Li, Jihyung Kil, Chenguang Wang, Tong Yu, Ryan Rossi, Tianyi Zhou, Changyou Chen, Ruiyi Zhang
cs.AI

papers.abstract

La majorité des données organisationnelles dans le monde sont stockées sous forme de documents, et la recherche visuelle joue un rôle crucial pour débloquer l'intelligence collective contenue dans ces documents. Cependant, les benchmarks existants se concentrent principalement sur la recherche de documents en anglais ou ne considèrent que des questions-réponses multilingues sur des images d'une seule page. Pour combler cette lacune, nous introduisons VisR-Bench, un benchmark multilingue conçu pour la recherche multimodale pilotée par des questions dans des documents longs. Notre benchmark comprend plus de 35 000 paires de questions-réponses de haute qualité réparties sur 1 200 documents, permettant une évaluation fine de la recherche multimodale. VisR-Bench couvre seize langues avec trois types de questions (figures, texte et tableaux), offrant ainsi une diversité linguistique et une couverture variée des questions. Contrairement aux jeux de données précédents, nous incluons des requêtes sans réponses explicites, empêchant les modèles de s'appuyer sur une correspondance superficielle de mots-clés. Nous évaluons divers modèles de recherche, incluant des méthodes basées sur le texte, des encodeurs multimodaux et des MLLMs (modèles de langage multimodaux), fournissant ainsi des insights sur leurs forces et leurs limites. Nos résultats montrent que, bien que les MLLMs surpassent significativement les modèles basés sur le texte et les encodeurs multimodaux, ils rencontrent encore des difficultés avec les tableaux structurés et les langues à ressources limitées, mettant en lumière des défis clés dans la recherche visuelle multilingue.
English
Most organizational data in this world are stored as documents, and visual retrieval plays a crucial role in unlocking the collective intelligence from all these documents. However, existing benchmarks focus on English-only document retrieval or only consider multilingual question-answering on a single-page image. To bridge this gap, we introduce VisR-Bench, a multilingual benchmark designed for question-driven multimodal retrieval in long documents. Our benchmark comprises over 35K high-quality QA pairs across 1.2K documents, enabling fine-grained evaluation of multimodal retrieval. VisR-Bench spans sixteen languages with three question types (figures, text, and tables), offering diverse linguistic and question coverage. Unlike prior datasets, we include queries without explicit answers, preventing models from relying on superficial keyword matching. We evaluate various retrieval models, including text-based methods, multimodal encoders, and MLLMs, providing insights into their strengths and limitations. Our results show that while MLLMs significantly outperform text-based and multimodal encoder models, they still struggle with structured tables and low-resource languages, highlighting key challenges in multilingual visual retrieval.
PDF72August 12, 2025