RAVENEA: Un Punto de Referencia para la Comprensión de la Cultura Visual Aumentada por Recuperación Multimodal

Resumen

A medida que los modelos de visión y lenguaje (VLMs, por sus siglas en inglés) se integran cada vez más en la vida cotidiana, la necesidad de una comprensión precisa de la cultura visual se está volviendo crítica. Sin embargo, estos modelos a menudo no logran interpretar eficazmente los matices culturales. Trabajos previos han demostrado la efectividad de la generación aumentada por recuperación (RAG, por sus siglas en inglés) para mejorar la comprensión cultural en entornos de solo texto, mientras que su aplicación en escenarios multimodales sigue siendo poco explorada. Para cerrar esta brecha, presentamos RAVENEA (Retrieval-Augmented Visual culturE uNdErstAnding), un nuevo punto de referencia diseñado para avanzar en la comprensión de la cultura visual a través de la recuperación, centrándose en dos tareas: respuesta a preguntas visuales centradas en la cultura (cVQA, por sus siglas en inglés) y generación de descripciones de imágenes informadas por la cultura (cIC, por sus siglas en inglés). RAVENEA amplía los conjuntos de datos existentes al integrar más de 10,000 documentos de Wikipedia curados y clasificados por anotadores humanos. Con RAVENEA, entrenamos y evaluamos siete recuperadores multimodales para cada consulta de imagen, y medimos el impacto descendente de las entradas aumentadas por recuperación en catorce VLMs de última generación. Nuestros resultados muestran que los VLMs ligeros, cuando se aumentan con recuperación consciente de la cultura, superan a sus contrapartes no aumentadas (al menos en un 3.2% absoluto en cVQA y un 6.2% absoluto en cIC). Esto destaca el valor de los métodos aumentados por recuperación y los puntos de referencia culturalmente inclusivos para la comprensión multimodal.

English

As vision-language models (VLMs) become increasingly integrated into daily life, the need for accurate visual culture understanding is becoming critical. Yet, these models frequently fall short in interpreting cultural nuances effectively. Prior work has demonstrated the effectiveness of retrieval-augmented generation (RAG) in enhancing cultural understanding in text-only settings, while its application in multimodal scenarios remains underexplored. To bridge this gap, we introduce RAVENEA (Retrieval-Augmented Visual culturE uNdErstAnding), a new benchmark designed to advance visual culture understanding through retrieval, focusing on two tasks: culture-focused visual question answering (cVQA) and culture-informed image captioning (cIC). RAVENEA extends existing datasets by integrating over 10,000 Wikipedia documents curated and ranked by human annotators. With RAVENEA, we train and evaluate seven multimodal retrievers for each image query, and measure the downstream impact of retrieval-augmented inputs across fourteen state-of-the-art VLMs. Our results show that lightweight VLMs, when augmented with culture-aware retrieval, outperform their non-augmented counterparts (by at least 3.2% absolute on cVQA and 6.2% absolute on cIC). This highlights the value of retrieval-augmented methods and culturally inclusive benchmarks for multimodal understanding.

RAVENEA: Un Punto de Referencia para la Comprensión de la Cultura Visual Aumentada por Recuperación Multimodal

RAVENEA: A Benchmark for Multimodal Retrieval-Augmented Visual Culture Understanding

Resumen

Support