RAVENEA: Um Benchmark para Compreensão da Cultura Visual Aumentada por Recuperação Multimodal
RAVENEA: A Benchmark for Multimodal Retrieval-Augmented Visual Culture Understanding
May 20, 2025
Autores: Jiaang Li, Yifei Yuan, Wenyan Li, Mohammad Aliannejadi, Daniel Hershcovich, Anders Søgaard, Ivan Vulić, Wenxuan Zhang, Paul Pu Liang, Yang Deng, Serge Belongie
cs.AI
Resumo
À medida que os modelos de visão e linguagem (VLMs) se tornam cada vez mais integrados à vida cotidiana, a necessidade de uma compreensão precisa da cultura visual está se tornando crítica. No entanto, esses modelos frequentemente falham em interpretar efetivamente as nuances culturais. Trabalhos anteriores demonstraram a eficácia da geração aumentada por recuperação (RAG) em melhorar a compreensão cultural em cenários apenas de texto, enquanto sua aplicação em cenários multimodais permanece pouco explorada. Para preencher essa lacuna, introduzimos o RAVENEA (Retrieval-Augmented Visual culturE uNdErstAnding), um novo benchmark projetado para avançar a compreensão da cultura visual por meio de recuperação, com foco em duas tarefas: resposta a perguntas visuais com foco cultural (cVQA) e legendagem de imagens informada por cultura (cIC). O RAVENEA estende conjuntos de dados existentes ao integrar mais de 10.000 documentos da Wikipédia curados e classificados por anotadores humanos. Com o RAVENEA, treinamos e avaliamos sete recuperadores multimodais para cada consulta de imagem e medimos o impacto a jusante das entradas aumentadas por recuperação em quatorze VLMs state-of-the-art. Nossos resultados mostram que VLMs leves, quando aumentados com recuperação consciente da cultura, superam suas contrapartes não aumentadas (em pelo menos 3,2% absoluto no cVQA e 6,2% absoluto no cIC). Isso destaca o valor dos métodos aumentados por recuperação e benchmarks culturalmente inclusivos para a compreensão multimodal.
English
As vision-language models (VLMs) become increasingly integrated into daily
life, the need for accurate visual culture understanding is becoming critical.
Yet, these models frequently fall short in interpreting cultural nuances
effectively. Prior work has demonstrated the effectiveness of
retrieval-augmented generation (RAG) in enhancing cultural understanding in
text-only settings, while its application in multimodal scenarios remains
underexplored. To bridge this gap, we introduce RAVENEA (Retrieval-Augmented
Visual culturE uNdErstAnding), a new benchmark designed to advance visual
culture understanding through retrieval, focusing on two tasks: culture-focused
visual question answering (cVQA) and culture-informed image captioning (cIC).
RAVENEA extends existing datasets by integrating over 10,000 Wikipedia
documents curated and ranked by human annotators. With RAVENEA, we train and
evaluate seven multimodal retrievers for each image query, and measure the
downstream impact of retrieval-augmented inputs across fourteen
state-of-the-art VLMs. Our results show that lightweight VLMs, when augmented
with culture-aware retrieval, outperform their non-augmented counterparts (by
at least 3.2% absolute on cVQA and 6.2% absolute on cIC). This highlights the
value of retrieval-augmented methods and culturally inclusive benchmarks for
multimodal understanding.