VisR-Bench: 다국어 장문서 이해를 위한 시각적 검색-증강 생성에 대한 실증적 연구
VisR-Bench: An Empirical Study on Visual Retrieval-Augmented Generation for Multilingual Long Document Understanding
August 10, 2025
저자: Jian Chen, Ming Li, Jihyung Kil, Chenguang Wang, Tong Yu, Ryan Rossi, Tianyi Zhou, Changyou Chen, Ruiyi Zhang
cs.AI
초록
이 세상의 대부분의 조직 데이터는 문서 형태로 저장되며, 시각적 검색은 이러한 모든 문서에서 집단 지능을 끌어내는 데 중요한 역할을 합니다. 그러나 기존의 벤치마크는 영어로 된 문서 검색에 초점을 맞추거나 단일 페이지 이미지에 대한 다국어 질의응답만을 고려합니다. 이러한 격차를 해소하기 위해, 우리는 긴 문서에서 질문 주도형 다중모드 검색을 위해 설계된 다국어 벤치마크인 VisR-Bench를 소개합니다. 우리의 벤치마크는 1.2K개의 문서에 걸쳐 35K개 이상의 고품질 질문-응답 쌍으로 구성되어 있으며, 다중모드 검색의 세밀한 평가를 가능하게 합니다. VisR-Bench는 16개 언어와 세 가지 질문 유형(그림, 텍스트, 표)을 포괄하여 다양한 언어적 및 질문적 범위를 제공합니다. 기존 데이터셋과 달리, 우리는 명시적인 답변이 없는 질문을 포함시켜 모델이 표면적인 키워드 매칭에 의존하는 것을 방지합니다. 우리는 텍스트 기반 방법, 다중모드 인코더, 그리고 MLLM을 포함한 다양한 검색 모델을 평가하여 그들의 강점과 한계를 파악합니다. 우리의 결과는 MLLM이 텍스트 기반 및 다중모드 인코더 모델을 크게 능가하지만, 구조화된 표와 저자원 언어에서 여전히 어려움을 겪는 것을 보여주며, 다국어 시각적 검색의 주요 과제를 강조합니다.
English
Most organizational data in this world are stored as documents, and visual
retrieval plays a crucial role in unlocking the collective intelligence from
all these documents. However, existing benchmarks focus on English-only
document retrieval or only consider multilingual question-answering on a
single-page image. To bridge this gap, we introduce VisR-Bench, a multilingual
benchmark designed for question-driven multimodal retrieval in long documents.
Our benchmark comprises over 35K high-quality QA pairs across 1.2K documents,
enabling fine-grained evaluation of multimodal retrieval. VisR-Bench spans
sixteen languages with three question types (figures, text, and tables),
offering diverse linguistic and question coverage. Unlike prior datasets, we
include queries without explicit answers, preventing models from relying on
superficial keyword matching. We evaluate various retrieval models, including
text-based methods, multimodal encoders, and MLLMs, providing insights into
their strengths and limitations. Our results show that while MLLMs
significantly outperform text-based and multimodal encoder models, they still
struggle with structured tables and low-resource languages, highlighting key
challenges in multilingual visual retrieval.