VisR-Bench: Um Estudo Empírico sobre Geração Aumentada por Recuperação Visual para Compreensão de Documentos Longos Multilíngues
VisR-Bench: An Empirical Study on Visual Retrieval-Augmented Generation for Multilingual Long Document Understanding
August 10, 2025
Autores: Jian Chen, Ming Li, Jihyung Kil, Chenguang Wang, Tong Yu, Ryan Rossi, Tianyi Zhou, Changyou Chen, Ruiyi Zhang
cs.AI
Resumo
A maioria dos dados organizacionais no mundo são armazenados como documentos, e a recuperação visual desempenha um papel crucial em desbloquear a inteligência coletiva de todos esses documentos. No entanto, os benchmarks existentes focam na recuperação de documentos apenas em inglês ou consideram apenas a tarefa de questionamento e resposta multilíngue em imagens de página única. Para preencher essa lacuna, introduzimos o VisR-Bench, um benchmark multilíngue projetado para recuperação multimodal orientada por perguntas em documentos longos. Nosso benchmark compreende mais de 35 mil pares de perguntas e respostas de alta qualidade em 1,2 mil documentos, permitindo uma avaliação refinada da recuperação multimodal. O VisR-Bench abrange dezesseis idiomas com três tipos de perguntas (figuras, texto e tabelas), oferecendo uma cobertura linguística e de questionamento diversificada. Diferente de conjuntos de dados anteriores, incluímos consultas sem respostas explícitas, impedindo que os modelos dependam de correspondência superficial de palavras-chave. Avaliamos vários modelos de recuperação, incluindo métodos baseados em texto, codificadores multimodais e MLLMs (Modelos de Linguagem Multimodais), fornecendo insights sobre seus pontos fortes e limitações. Nossos resultados mostram que, embora os MLLMs superem significativamente os modelos baseados em texto e os codificadores multimodais, eles ainda enfrentam dificuldades com tabelas estruturadas e idiomas de baixo recurso, destacando desafios importantes na recuperação visual multilíngue.
English
Most organizational data in this world are stored as documents, and visual
retrieval plays a crucial role in unlocking the collective intelligence from
all these documents. However, existing benchmarks focus on English-only
document retrieval or only consider multilingual question-answering on a
single-page image. To bridge this gap, we introduce VisR-Bench, a multilingual
benchmark designed for question-driven multimodal retrieval in long documents.
Our benchmark comprises over 35K high-quality QA pairs across 1.2K documents,
enabling fine-grained evaluation of multimodal retrieval. VisR-Bench spans
sixteen languages with three question types (figures, text, and tables),
offering diverse linguistic and question coverage. Unlike prior datasets, we
include queries without explicit answers, preventing models from relying on
superficial keyword matching. We evaluate various retrieval models, including
text-based methods, multimodal encoders, and MLLMs, providing insights into
their strengths and limitations. Our results show that while MLLMs
significantly outperform text-based and multimodal encoder models, they still
struggle with structured tables and low-resource languages, highlighting key
challenges in multilingual visual retrieval.