RAVENEA: Бенчмарк для мультимодального поиска и анализа визуальной культуры
RAVENEA: A Benchmark for Multimodal Retrieval-Augmented Visual Culture Understanding
May 20, 2025
Авторы: Jiaang Li, Yifei Yuan, Wenyan Li, Mohammad Aliannejadi, Daniel Hershcovich, Anders Søgaard, Ivan Vulić, Wenxuan Zhang, Paul Pu Liang, Yang Deng, Serge Belongie
cs.AI
Аннотация
По мере того как модели, объединяющие зрение и язык (VLMs), всё чаще интегрируются в повседневную жизнь, необходимость точного понимания визуальной культуры становится критически важной. Однако эти модели часто не справляются с эффективной интерпретацией культурных нюансов. Предыдущие исследования продемонстрировали эффективность генерации, усиленной поиском (RAG), в улучшении понимания культур в текстовых задачах, однако её применение в мультимодальных сценариях остаётся недостаточно изученным. Чтобы заполнить этот пробел, мы представляем RAVENEA (Retrieval-Augmented Visual culturE uNdErstAnding) — новый эталонный набор данных, предназначенный для продвижения понимания визуальной культуры через поиск, с акцентом на две задачи: визуальный вопросно-ответный анализ с культурным уклоном (cVQA) и создание подписей к изображениям с учётом культурного контекста (cIC). RAVENEA расширяет существующие наборы данных, интегрируя более 10 000 документов из Википедии, отобранных и ранжированных экспертами-аннотаторами. С помощью RAVENEA мы обучаем и оцениваем семь мультимодальных поисковых систем для каждого запроса по изображению, а также измеряем влияние входных данных, усиленных поиском, на четырнадцать современных VLMs. Наши результаты показывают, что облегчённые VLMs, дополненные поиском с учётом культурного контекста, превосходят свои аналоги без такого дополнения (как минимум на 3,2% по cVQA и на 6,2% по cIC). Это подчеркивает ценность методов, усиленных поиском, и эталонных наборов данных, учитывающих культурное разнообразие, для мультимодального понимания.
English
As vision-language models (VLMs) become increasingly integrated into daily
life, the need for accurate visual culture understanding is becoming critical.
Yet, these models frequently fall short in interpreting cultural nuances
effectively. Prior work has demonstrated the effectiveness of
retrieval-augmented generation (RAG) in enhancing cultural understanding in
text-only settings, while its application in multimodal scenarios remains
underexplored. To bridge this gap, we introduce RAVENEA (Retrieval-Augmented
Visual culturE uNdErstAnding), a new benchmark designed to advance visual
culture understanding through retrieval, focusing on two tasks: culture-focused
visual question answering (cVQA) and culture-informed image captioning (cIC).
RAVENEA extends existing datasets by integrating over 10,000 Wikipedia
documents curated and ranked by human annotators. With RAVENEA, we train and
evaluate seven multimodal retrievers for each image query, and measure the
downstream impact of retrieval-augmented inputs across fourteen
state-of-the-art VLMs. Our results show that lightweight VLMs, when augmented
with culture-aware retrieval, outperform their non-augmented counterparts (by
at least 3.2% absolute on cVQA and 6.2% absolute on cIC). This highlights the
value of retrieval-augmented methods and culturally inclusive benchmarks for
multimodal understanding.Summary
AI-Generated Summary