RAVENEA : Un Benchmark pour la Compréhension de la Culture Visuelle par Récupération Augmentée Multimodale
RAVENEA: A Benchmark for Multimodal Retrieval-Augmented Visual Culture Understanding
May 20, 2025
Auteurs: Jiaang Li, Yifei Yuan, Wenyan Li, Mohammad Aliannejadi, Daniel Hershcovich, Anders Søgaard, Ivan Vulić, Wenxuan Zhang, Paul Pu Liang, Yang Deng, Serge Belongie
cs.AI
Résumé
Alors que les modèles vision-langage (VLMs) s'intègrent de plus en plus dans la vie quotidienne, la nécessité d'une compréhension précise de la culture visuelle devient cruciale. Cependant, ces modèles peinent souvent à interpréter efficacement les nuances culturelles. Les travaux antérieurs ont démontré l'efficacité de la génération augmentée par récupération (RAG) pour améliorer la compréhension culturelle dans des contextes textuels uniquement, tandis que son application dans des scénarios multimodaux reste peu explorée. Pour combler cette lacune, nous introduisons RAVENEA (Retrieval-Augmented Visual culturE uNdErstAnding), un nouveau benchmark conçu pour faire progresser la compréhension de la culture visuelle grâce à la récupération, en se concentrant sur deux tâches : la réponse à des questions visuelles centrées sur la culture (cVQA) et la génération de légendes d'images informées par la culture (cIC). RAVENEA étend les ensembles de données existants en intégrant plus de 10 000 documents Wikipédia sélectionnés et classés par des annotateurs humains. Avec RAVENEA, nous entraînons et évaluons sept récupérateurs multimodaux pour chaque requête d'image, et mesurons l'impact en aval des entrées augmentées par récupération sur quatorze VLMs de pointe. Nos résultats montrent que les VLMs légers, lorsqu'ils sont augmentés par une récupération consciente de la culture, surpassent leurs homologues non augmentés (d'au moins 3,2 % en absolu sur cVQA et 6,2 % en absolu sur cIC). Cela met en évidence la valeur des méthodes augmentées par récupération et des benchmarks culturellement inclusifs pour la compréhension multimodale.
English
As vision-language models (VLMs) become increasingly integrated into daily
life, the need for accurate visual culture understanding is becoming critical.
Yet, these models frequently fall short in interpreting cultural nuances
effectively. Prior work has demonstrated the effectiveness of
retrieval-augmented generation (RAG) in enhancing cultural understanding in
text-only settings, while its application in multimodal scenarios remains
underexplored. To bridge this gap, we introduce RAVENEA (Retrieval-Augmented
Visual culturE uNdErstAnding), a new benchmark designed to advance visual
culture understanding through retrieval, focusing on two tasks: culture-focused
visual question answering (cVQA) and culture-informed image captioning (cIC).
RAVENEA extends existing datasets by integrating over 10,000 Wikipedia
documents curated and ranked by human annotators. With RAVENEA, we train and
evaluate seven multimodal retrievers for each image query, and measure the
downstream impact of retrieval-augmented inputs across fourteen
state-of-the-art VLMs. Our results show that lightweight VLMs, when augmented
with culture-aware retrieval, outperform their non-augmented counterparts (by
at least 3.2% absolute on cVQA and 6.2% absolute on cIC). This highlights the
value of retrieval-augmented methods and culturally inclusive benchmarks for
multimodal understanding.Summary
AI-Generated Summary