ChatPaper.aiChatPaper

VisR-Bench: Un Estudio Empírico sobre la Generación Aumentada por Recuperación Visual para la Comprensión de Documentos Largos Multilingües

VisR-Bench: An Empirical Study on Visual Retrieval-Augmented Generation for Multilingual Long Document Understanding

August 10, 2025
Autores: Jian Chen, Ming Li, Jihyung Kil, Chenguang Wang, Tong Yu, Ryan Rossi, Tianyi Zhou, Changyou Chen, Ruiyi Zhang
cs.AI

Resumen

La mayoría de los datos organizacionales en este mundo se almacenan como documentos, y la recuperación visual desempeña un papel crucial para desbloquear la inteligencia colectiva de todos estos documentos. Sin embargo, los puntos de referencia existentes se centran en la recuperación de documentos únicamente en inglés o solo consideran la respuesta a preguntas multilingües en una imagen de una sola página. Para cerrar esta brecha, presentamos VisR-Bench, un punto de referencia multilingüe diseñado para la recuperación multimodal impulsada por preguntas en documentos extensos. Nuestro punto de referencia comprende más de 35K pares de preguntas y respuestas de alta calidad en 1.2K documentos, lo que permite una evaluación detallada de la recuperación multimodal. VisR-Bench abarca dieciséis idiomas con tres tipos de preguntas (figuras, texto y tablas), ofreciendo una cobertura lingüística y de preguntas diversa. A diferencia de conjuntos de datos anteriores, incluimos consultas sin respuestas explícitas, evitando que los modelos dependan de la coincidencia superficial de palabras clave. Evaluamos varios modelos de recuperación, incluyendo métodos basados en texto, codificadores multimodales y MLLMs, proporcionando información sobre sus fortalezas y limitaciones. Nuestros resultados muestran que, aunque los MLLMs superan significativamente a los modelos basados en texto y a los codificadores multimodales, aún tienen dificultades con las tablas estructuradas y los idiomas de bajos recursos, destacando desafíos clave en la recuperación visual multilingüe.
English
Most organizational data in this world are stored as documents, and visual retrieval plays a crucial role in unlocking the collective intelligence from all these documents. However, existing benchmarks focus on English-only document retrieval or only consider multilingual question-answering on a single-page image. To bridge this gap, we introduce VisR-Bench, a multilingual benchmark designed for question-driven multimodal retrieval in long documents. Our benchmark comprises over 35K high-quality QA pairs across 1.2K documents, enabling fine-grained evaluation of multimodal retrieval. VisR-Bench spans sixteen languages with three question types (figures, text, and tables), offering diverse linguistic and question coverage. Unlike prior datasets, we include queries without explicit answers, preventing models from relying on superficial keyword matching. We evaluate various retrieval models, including text-based methods, multimodal encoders, and MLLMs, providing insights into their strengths and limitations. Our results show that while MLLMs significantly outperform text-based and multimodal encoder models, they still struggle with structured tables and low-resource languages, highlighting key challenges in multilingual visual retrieval.
PDF72August 12, 2025