RAVENEA: Un Benchmark per la Comprensione della Cultura Visiva con Recupero Multimodale Aumentato
RAVENEA: A Benchmark for Multimodal Retrieval-Augmented Visual Culture Understanding
May 20, 2025
Autori: Jiaang Li, Yifei Yuan, Wenyan Li, Mohammad Aliannejadi, Daniel Hershcovich, Anders Søgaard, Ivan Vulić, Wenxuan Zhang, Paul Pu Liang, Yang Deng, Serge Belongie
cs.AI
Abstract
Man mano che i modelli visione-linguaggio (VLMs) si integrano sempre più nella vita quotidiana, la necessità di una comprensione accurata della cultura visiva sta diventando cruciale. Tuttavia, questi modelli spesso non riescono a interpretare efficacemente le sfumature culturali. Ricerche precedenti hanno dimostrato l'efficacia della generazione aumentata da recupero (RAG) nel migliorare la comprensione culturale in contesti esclusivamente testuali, mentre la sua applicazione in scenari multimodali rimane poco esplorata. Per colmare questa lacuna, introduciamo RAVENEA (Retrieval-Augmented Visual culturE uNdErstAnding), un nuovo benchmark progettato per avanzare la comprensione della cultura visiva attraverso il recupero, concentrandosi su due compiti: risposta a domande visive focalizzate sulla cultura (cVQA) e descrizione di immagini informata dalla cultura (cIC). RAVENEA estende i dataset esistenti integrando oltre 10.000 documenti Wikipedia curati e classificati da annotatori umani. Con RAVENEA, addestriamo e valutiamo sette recuperatori multimodali per ogni query di immagine e misuriamo l'impatto a valle degli input aumentati da recupero su quattordici VLMs all'avanguardia. I nostri risultati mostrano che i VLMs leggeri, quando aumentati con il recupero consapevole della cultura, superano le loro controparti non aumentate (di almeno il 3,2% assoluto su cVQA e il 6,2% assoluto su cIC). Ciò evidenzia il valore dei metodi aumentati da recupero e dei benchmark culturalmente inclusivi per la comprensione multimodale.
English
As vision-language models (VLMs) become increasingly integrated into daily
life, the need for accurate visual culture understanding is becoming critical.
Yet, these models frequently fall short in interpreting cultural nuances
effectively. Prior work has demonstrated the effectiveness of
retrieval-augmented generation (RAG) in enhancing cultural understanding in
text-only settings, while its application in multimodal scenarios remains
underexplored. To bridge this gap, we introduce RAVENEA (Retrieval-Augmented
Visual culturE uNdErstAnding), a new benchmark designed to advance visual
culture understanding through retrieval, focusing on two tasks: culture-focused
visual question answering (cVQA) and culture-informed image captioning (cIC).
RAVENEA extends existing datasets by integrating over 10,000 Wikipedia
documents curated and ranked by human annotators. With RAVENEA, we train and
evaluate seven multimodal retrievers for each image query, and measure the
downstream impact of retrieval-augmented inputs across fourteen
state-of-the-art VLMs. Our results show that lightweight VLMs, when augmented
with culture-aware retrieval, outperform their non-augmented counterparts (by
at least 3.2% absolute on cVQA and 6.2% absolute on cIC). This highlights the
value of retrieval-augmented methods and culturally inclusive benchmarks for
multimodal understanding.