RAVENEA: 다중모달 검색 증강 시각 문화 이해를 위한 벤치마크
RAVENEA: A Benchmark for Multimodal Retrieval-Augmented Visual Culture Understanding
May 20, 2025
저자: Jiaang Li, Yifei Yuan, Wenyan Li, Mohammad Aliannejadi, Daniel Hershcovich, Anders Søgaard, Ivan Vulić, Wenxuan Zhang, Paul Pu Liang, Yang Deng, Serge Belongie
cs.AI
초록
비전-언어 모델(VLMs)이 일상생활에 점점 더 통합됨에 따라 정확한 시각 문화 이해의 필요성이 중요해지고 있습니다. 그러나 이러한 모델들은 문화적 뉘앙스를 효과적으로 해석하는 데 자주 부족함을 보입니다. 기존 연구에서는 텍스트 전용 환경에서 문화적 이해를 향상시키는 데 검색 증강 생성(Retrieval-Augmented Generation, RAG)의 효과를 입증했지만, 다중모달 시나리오에서의 적용은 아직 충분히 탐구되지 않았습니다. 이러한 격차를 해소하기 위해, 우리는 검색을 통해 시각 문화 이해를 발전시키기 위한 새로운 벤치마크인 RAVENEA(Retrieval-Augmented Visual culturE uNdErstAnding)를 소개합니다. RAVENEA는 문화 중심 시각 질의응답(cVQA)과 문화 정보를 반영한 이미지 캡셔닝(cIC)이라는 두 가지 작업에 초점을 맞춥니다. RAVENEA는 인간 주석자가 선별하고 순위를 매긴 10,000개 이상의 위키피디아 문서를 통합하여 기존 데이터셋을 확장합니다. RAVENEA를 통해 각 이미지 쿼리에 대해 7개의 다중모달 검색기를 훈련하고 평가하며, 14개의 최첨단 VLM에 걸쳐 검색 증강 입력의 하류 영향을 측정합니다. 우리의 결과는 문화 인식 검색으로 증강된 경량 VLM이 증강되지 않은 대조군보다 우수한 성능을 보임을 나타냅니다(cVQA에서 최소 3.2%, cIC에서 최소 6.2% 절대적 향상). 이는 다중모달 이해를 위한 검색 증강 방법과 문화적으로 포용적인 벤치마크의 가치를 강조합니다.
English
As vision-language models (VLMs) become increasingly integrated into daily
life, the need for accurate visual culture understanding is becoming critical.
Yet, these models frequently fall short in interpreting cultural nuances
effectively. Prior work has demonstrated the effectiveness of
retrieval-augmented generation (RAG) in enhancing cultural understanding in
text-only settings, while its application in multimodal scenarios remains
underexplored. To bridge this gap, we introduce RAVENEA (Retrieval-Augmented
Visual culturE uNdErstAnding), a new benchmark designed to advance visual
culture understanding through retrieval, focusing on two tasks: culture-focused
visual question answering (cVQA) and culture-informed image captioning (cIC).
RAVENEA extends existing datasets by integrating over 10,000 Wikipedia
documents curated and ranked by human annotators. With RAVENEA, we train and
evaluate seven multimodal retrievers for each image query, and measure the
downstream impact of retrieval-augmented inputs across fourteen
state-of-the-art VLMs. Our results show that lightweight VLMs, when augmented
with culture-aware retrieval, outperform their non-augmented counterparts (by
at least 3.2% absolute on cVQA and 6.2% absolute on cIC). This highlights the
value of retrieval-augmented methods and culturally inclusive benchmarks for
multimodal understanding.Summary
AI-Generated Summary