VisR-Bench: Een Empirische Studie over Visueel Retrieval-Augmented Generation voor Meertalig Begrip van Lange Documenten
VisR-Bench: An Empirical Study on Visual Retrieval-Augmented Generation for Multilingual Long Document Understanding
August 10, 2025
Auteurs: Jian Chen, Ming Li, Jihyung Kil, Chenguang Wang, Tong Yu, Ryan Rossi, Tianyi Zhou, Changyou Chen, Ruiyi Zhang
cs.AI
Samenvatting
Het merendeel van de organisatiegegevens in de wereld wordt opgeslagen als documenten, en visuele retrieval speelt een cruciale rol bij het ontsluiten van de collectieve intelligentie uit al deze documenten. Bestaande benchmarks richten zich echter alleen op documentretrieval in het Engels of beschouwen alleen meertalige vraag-antwoordtaken op afbeeldingen van één pagina. Om deze kloof te overbruggen, introduceren we VisR-Bench, een meertalige benchmark die is ontworpen voor vraaggestuurde multimodale retrieval in lange documenten. Onze benchmark omvat meer dan 35K hoogwaardige vraag-antwoordparen verspreid over 1.2K documenten, waardoor een gedetailleerde evaluatie van multimodale retrieval mogelijk is. VisR-Bench beslaat zestien talen met drie vraagtypen (figuren, tekst en tabellen), wat een diverse linguïstische en vraagdekking biedt. In tegenstelling tot eerdere datasets, nemen we queries op zonder expliciete antwoorden, waardoor modellen niet kunnen vertrouwen op oppervlakkige trefwoordherkenning. We evalueren verschillende retrievalmodellen, waaronder tekstgebaseerde methoden, multimodale encoders en MLLM's, en bieden inzicht in hun sterke en zwakke punten. Onze resultaten tonen aan dat hoewel MLLM's tekstgebaseerde en multimodale encodermodellen aanzienlijk overtreffen, ze nog steeds moeite hebben met gestructureerde tabellen en talen met weinig bronnen, wat belangrijke uitdagingen in meertalige visuele retrieval benadrukt.
English
Most organizational data in this world are stored as documents, and visual
retrieval plays a crucial role in unlocking the collective intelligence from
all these documents. However, existing benchmarks focus on English-only
document retrieval or only consider multilingual question-answering on a
single-page image. To bridge this gap, we introduce VisR-Bench, a multilingual
benchmark designed for question-driven multimodal retrieval in long documents.
Our benchmark comprises over 35K high-quality QA pairs across 1.2K documents,
enabling fine-grained evaluation of multimodal retrieval. VisR-Bench spans
sixteen languages with three question types (figures, text, and tables),
offering diverse linguistic and question coverage. Unlike prior datasets, we
include queries without explicit answers, preventing models from relying on
superficial keyword matching. We evaluate various retrieval models, including
text-based methods, multimodal encoders, and MLLMs, providing insights into
their strengths and limitations. Our results show that while MLLMs
significantly outperform text-based and multimodal encoder models, they still
struggle with structured tables and low-resource languages, highlighting key
challenges in multilingual visual retrieval.