ChatPaper.aiChatPaper

Мир в кадре: осмысление культурного смешения как новой задачи для визуально-языковых моделей

World in a Frame: Understanding Culture Mixing as a New Challenge for Vision-Language Models

November 27, 2025
Авторы: Eunsu Kim, Junyeong Park, Na Min An, Junseong Kim, Hitesh Laxmichand Patel, Jiho Jin, Julia Kruk, Amit Agarwal, Srikant Panda, Fenal Ashokbhai Ilasariya, Hyunjung Shim, Alice Oh
cs.AI

Аннотация

В условиях глобализации культурные элементы различного происхождения часто соседствуют в рамках единого визуального сцены. Мы называем такие сценарии культурным смешением, однако то, как крупные языково-визуальные модели (LVLM) воспринимают их, остается малоизученным. Мы исследуем культурное смешение как серьезную проблему для LVLM и анализируем поведение современных моделей, когда культурные объекты из разных регионов появляются вместе. Для систематического анализа этого поведения мы создали CultureMix — бенчмарк визуального вопросно-ответного задания (VQA) по теме еды, содержащий 23 тыс. сгенерированных диффузионными моделями и проверенных человеком изображений культурного смешения по четырем подзадачам: (1) только еда, (2) еда+еда, (3) еда+фон, (4) еда+еда+фон. Оценив 10 LVLM, мы выявили устойчивые ошибки в сохранении индивидуальных культурных идентичностей в смешанных сценах. Модели демонстрируют сильную зависимость от фона: точность падает на 14% при добавлении культурного фона к базовым сценам с едой, а также выдают противоречивые предсказания для одинаковых блюд в разных контекстах. Для преодоления этих ограничений мы исследуем три стратегии повышения устойчивости. Мы обнаружили, что контролируемое тонкое обучение с использованием разнообразного набора данных культурного смешения существенно улучшает согласованность моделей и снижает их чувствительность к фону. Мы призываем уделять больше внимания сценариям культурного смешения как критическому шагу на пути к созданию LVLM, способных надежно функционировать в культурно разнообразной реальной среде.
English
In a globalized world, cultural elements from diverse origins frequently appear together within a single visual scene. We refer to these as culture mixing scenarios, yet how Large Vision-Language Models (LVLMs) perceive them remains underexplored. We investigate culture mixing as a critical challenge for LVLMs and examine how current models behave when cultural items from multiple regions appear together. To systematically analyze these behaviors, we construct CultureMix, a food Visual Question Answering (VQA) benchmark with 23k diffusion-generated, human-verified culture mixing images across four subtasks: (1) food-only, (2) food+food, (3) food+background, and (4) food+food+background. Evaluating 10 LVLMs, we find consistent failures to preserve individual cultural identities in mixed settings. Models show strong background reliance, with accuracy dropping 14% when cultural backgrounds are added to food-only baselines, and they produce inconsistent predictions for identical foods across different contexts. To address these limitations, we explore three robustness strategies. We find supervised fine-tuning using a diverse culture mixing dataset substantially improve model consistency and reduce background sensitivity. We call for increased attention to culture mixing scenarios as a critical step toward developing LVLMs capable of operating reliably in culturally diverse real-world environments.
PDF61December 2, 2025