RAVENEA: Un Punto de Referencia para la Comprensión de la Cultura Visual Aumentada por Recuperación Multimodal
RAVENEA: A Benchmark for Multimodal Retrieval-Augmented Visual Culture Understanding
May 20, 2025
Autores: Jiaang Li, Yifei Yuan, Wenyan Li, Mohammad Aliannejadi, Daniel Hershcovich, Anders Søgaard, Ivan Vulić, Wenxuan Zhang, Paul Pu Liang, Yang Deng, Serge Belongie
cs.AI
Resumen
A medida que los modelos de visión y lenguaje (VLMs, por sus siglas en inglés) se integran cada vez más en la vida cotidiana, la necesidad de una comprensión precisa de la cultura visual se está volviendo crítica. Sin embargo, estos modelos a menudo no logran interpretar eficazmente los matices culturales. Trabajos previos han demostrado la efectividad de la generación aumentada por recuperación (RAG, por sus siglas en inglés) para mejorar la comprensión cultural en entornos de solo texto, mientras que su aplicación en escenarios multimodales sigue siendo poco explorada. Para cerrar esta brecha, presentamos RAVENEA (Retrieval-Augmented Visual culturE uNdErstAnding), un nuevo punto de referencia diseñado para avanzar en la comprensión de la cultura visual a través de la recuperación, centrándose en dos tareas: respuesta a preguntas visuales centradas en la cultura (cVQA, por sus siglas en inglés) y generación de descripciones de imágenes informadas por la cultura (cIC, por sus siglas en inglés). RAVENEA amplía los conjuntos de datos existentes al integrar más de 10,000 documentos de Wikipedia curados y clasificados por anotadores humanos. Con RAVENEA, entrenamos y evaluamos siete recuperadores multimodales para cada consulta de imagen, y medimos el impacto descendente de las entradas aumentadas por recuperación en catorce VLMs de última generación. Nuestros resultados muestran que los VLMs ligeros, cuando se aumentan con recuperación consciente de la cultura, superan a sus contrapartes no aumentadas (al menos en un 3.2% absoluto en cVQA y un 6.2% absoluto en cIC). Esto destaca el valor de los métodos aumentados por recuperación y los puntos de referencia culturalmente inclusivos para la comprensión multimodal.
English
As vision-language models (VLMs) become increasingly integrated into daily
life, the need for accurate visual culture understanding is becoming critical.
Yet, these models frequently fall short in interpreting cultural nuances
effectively. Prior work has demonstrated the effectiveness of
retrieval-augmented generation (RAG) in enhancing cultural understanding in
text-only settings, while its application in multimodal scenarios remains
underexplored. To bridge this gap, we introduce RAVENEA (Retrieval-Augmented
Visual culturE uNdErstAnding), a new benchmark designed to advance visual
culture understanding through retrieval, focusing on two tasks: culture-focused
visual question answering (cVQA) and culture-informed image captioning (cIC).
RAVENEA extends existing datasets by integrating over 10,000 Wikipedia
documents curated and ranked by human annotators. With RAVENEA, we train and
evaluate seven multimodal retrievers for each image query, and measure the
downstream impact of retrieval-augmented inputs across fourteen
state-of-the-art VLMs. Our results show that lightweight VLMs, when augmented
with culture-aware retrieval, outperform their non-augmented counterparts (by
at least 3.2% absolute on cVQA and 6.2% absolute on cIC). This highlights the
value of retrieval-augmented methods and culturally inclusive benchmarks for
multimodal understanding.Summary
AI-Generated Summary