RAVENEA: Een Benchmark voor Multimodaal Retrieval-Augmented Visuele Cultuur Begrip
RAVENEA: A Benchmark for Multimodal Retrieval-Augmented Visual Culture Understanding
May 20, 2025
Auteurs: Jiaang Li, Yifei Yuan, Wenyan Li, Mohammad Aliannejadi, Daniel Hershcovich, Anders Søgaard, Ivan Vulić, Wenxuan Zhang, Paul Pu Liang, Yang Deng, Serge Belongie
cs.AI
Samenvatting
Naarmate visueel-taalmodelen (VLMs) steeds meer geïntegreerd raken in het dagelijks leven, wordt de behoefte aan nauwkeurig begrip van visuele cultuur steeds kritischer. Toch slagen deze modellen er vaak niet in om culturele nuances effectief te interpreteren. Eerder onderzoek heeft de effectiviteit van retrieval-augmented generation (RAG) aangetoond bij het verbeteren van cultureel begrip in tekstuele contexten, terwijl de toepassing ervan in multimodale scenario’s nog onderbelicht is. Om deze kloof te overbruggen, introduceren we RAVENEA (Retrieval-Augmented Visual culturE uNdErstAnding), een nieuwe benchmark die is ontworpen om visueel cultuur begrip te bevorderen door middel van retrieval, met focus op twee taken: cultuurgericht visueel vraag-antwoord (cVQA) en cultuurgeïnformeerde beeldbeschrijving (cIC). RAVENEA breidt bestaande datasets uit door de integratie van meer dan 10.000 Wikipedia-documenten die zijn gecureerd en gerangschikt door menselijke annotators. Met RAVENEA trainen en evalueren we zeven multimodale retrievers voor elke beeldquery, en meten we de downstream-impact van retrieval-augmented inputs over veertien state-of-the-art VLMs. Onze resultaten tonen aan dat lichtgewicht VLMs, wanneer ze worden versterkt met cultuurbewuste retrieval, hun niet-versterkte tegenhangers overtreffen (met minimaal 3,2% absoluut op cVQA en 6,2% absoluut op cIC). Dit onderstreept de waarde van retrieval-augmented methoden en cultureel inclusieve benchmarks voor multimodaal begrip.
English
As vision-language models (VLMs) become increasingly integrated into daily
life, the need for accurate visual culture understanding is becoming critical.
Yet, these models frequently fall short in interpreting cultural nuances
effectively. Prior work has demonstrated the effectiveness of
retrieval-augmented generation (RAG) in enhancing cultural understanding in
text-only settings, while its application in multimodal scenarios remains
underexplored. To bridge this gap, we introduce RAVENEA (Retrieval-Augmented
Visual culturE uNdErstAnding), a new benchmark designed to advance visual
culture understanding through retrieval, focusing on two tasks: culture-focused
visual question answering (cVQA) and culture-informed image captioning (cIC).
RAVENEA extends existing datasets by integrating over 10,000 Wikipedia
documents curated and ranked by human annotators. With RAVENEA, we train and
evaluate seven multimodal retrievers for each image query, and measure the
downstream impact of retrieval-augmented inputs across fourteen
state-of-the-art VLMs. Our results show that lightweight VLMs, when augmented
with culture-aware retrieval, outperform their non-augmented counterparts (by
at least 3.2% absolute on cVQA and 6.2% absolute on cIC). This highlights the
value of retrieval-augmented methods and culturally inclusive benchmarks for
multimodal understanding.