RAVENEA: Ein Benchmark für multimodale, retrieval-augmentierte Verständnisbildung visueller Kultur
RAVENEA: A Benchmark for Multimodal Retrieval-Augmented Visual Culture Understanding
May 20, 2025
Autoren: Jiaang Li, Yifei Yuan, Wenyan Li, Mohammad Aliannejadi, Daniel Hershcovich, Anders Søgaard, Ivan Vulić, Wenxuan Zhang, Paul Pu Liang, Yang Deng, Serge Belongie
cs.AI
Zusammenfassung
Da Vision-Language-Modelle (VLMs) zunehmend in den Alltag integriert werden, wird das Bedürfnis nach einem genauen Verständnis visueller Kultur immer kritischer. Dennoch scheitern diese Modelle häufig daran, kulturelle Nuancen effektiv zu interpretieren. Frühere Arbeiten haben die Wirksamkeit von Retrieval-Augmented Generation (RAG) zur Verbesserung des kulturellen Verständnisses in rein textbasierten Kontexten gezeigt, während ihre Anwendung in multimodalen Szenarien noch unzureichend erforscht ist. Um diese Lücke zu schließen, stellen wir RAVENEA (Retrieval-Augmented Visual culturE uNdErstAnding) vor, einen neuen Benchmark, der das Verständnis visueller Kultur durch Retrieval fördern soll, mit Fokus auf zwei Aufgaben: kulturbezogenes visuelles Frage-Antworten (cVQA) und kulturinformierte Bildbeschreibung (cIC). RAVENEA erweitert bestehende Datensätze durch die Integration von über 10.000 Wikipedia-Dokumenten, die von menschlichen Annotatoren kuratiert und bewertet wurden. Mit RAVENEA trainieren und evaluieren wir sieben multimodale Retriever für jede Bildanfrage und messen die Auswirkungen retrieval-augmentierter Eingaben auf vierzehn state-of-the-art VLMs. Unsere Ergebnisse zeigen, dass leichte VLMs, wenn sie mit kulturbewusstem Retrieval angereichert werden, ihre nicht-angereicherten Gegenstücke übertreffen (um mindestens 3,2 % absolut bei cVQA und 6,2 % absolut bei cIC). Dies unterstreicht den Wert von retrieval-augmentierten Methoden und kulturell inklusiven Benchmarks für multimodales Verständnis.
English
As vision-language models (VLMs) become increasingly integrated into daily
life, the need for accurate visual culture understanding is becoming critical.
Yet, these models frequently fall short in interpreting cultural nuances
effectively. Prior work has demonstrated the effectiveness of
retrieval-augmented generation (RAG) in enhancing cultural understanding in
text-only settings, while its application in multimodal scenarios remains
underexplored. To bridge this gap, we introduce RAVENEA (Retrieval-Augmented
Visual culturE uNdErstAnding), a new benchmark designed to advance visual
culture understanding through retrieval, focusing on two tasks: culture-focused
visual question answering (cVQA) and culture-informed image captioning (cIC).
RAVENEA extends existing datasets by integrating over 10,000 Wikipedia
documents curated and ranked by human annotators. With RAVENEA, we train and
evaluate seven multimodal retrievers for each image query, and measure the
downstream impact of retrieval-augmented inputs across fourteen
state-of-the-art VLMs. Our results show that lightweight VLMs, when augmented
with culture-aware retrieval, outperform their non-augmented counterparts (by
at least 3.2% absolute on cVQA and 6.2% absolute on cIC). This highlights the
value of retrieval-augmented methods and culturally inclusive benchmarks for
multimodal understanding.Summary
AI-Generated Summary