ChatPaper.aiChatPaper

Monde en Cadre : Comprendre le Mélange Culturel comme un Nouveau Défi pour les Modèles Vision-Langage

World in a Frame: Understanding Culture Mixing as a New Challenge for Vision-Language Models

November 27, 2025
papers.authors: Eunsu Kim, Junyeong Park, Na Min An, Junseong Kim, Hitesh Laxmichand Patel, Jiho Jin, Julia Kruk, Amit Agarwal, Srikant Panda, Fenal Ashokbhai Ilasariya, Hyunjung Shim, Alice Oh
cs.AI

papers.abstract

Dans un monde globalisé, les éléments culturels de diverses origines apparaissent fréquemment ensemble au sein d'une même scène visuelle. Nous qualifions ces situations de scénarios de mixité culturelle, mais la manière dont les Grands Modèles Vision-Langage (LVLM) les perçoivent reste peu explorée. Nous étudions la mixité culturelle comme un défi critique pour les LVLM et examinons comment les modèles actuels se comportent lorsque des éléments culturels de multiples régions apparaissent ensemble. Pour analyser systématiquement ces comportements, nous construisons CultureMix, un benchmark de Question-Réponse Visuelle (VQA) sur l'alimentation comprenant 23 000 images de mixité culturelle générées par diffusion et vérifiées par des humains, réparties en quatre sous-tâches : (1) nourriture seule, (2) nourriture+nourriture, (3) nourriture+arrière-plan, et (4) nourriture+nourriture+arrière-plan. En évaluant 10 LVLM, nous constatons des échecs constants à préserver les identités culturelles individuelles dans des contextes mixtes. Les modèles montrent une forte dépendance à l'arrière-plan, avec une précision chutant de 14 % lorsque des arrière-plans culturels sont ajoutés aux bases de référence de nourriture seule, et ils produisent des prédictions incohérentes pour des aliments identiques dans différents contextes. Pour remédier à ces limitations, nous explorons trois stratégies de robustesse. Nous constatons qu'un fine-tuning supervisé utilisant un jeu de données diversifié de mixité culturelle améliore substantiellement la cohérence des modèles et réduit leur sensibilité à l'arrière-plan. Nous appelons à une attention accrue portée aux scénarios de mixité culturelle comme une étape cruciale vers le développement de LVLM capables de fonctionner de manière fiable dans des environnements réels culturellement diversifiés.
English
In a globalized world, cultural elements from diverse origins frequently appear together within a single visual scene. We refer to these as culture mixing scenarios, yet how Large Vision-Language Models (LVLMs) perceive them remains underexplored. We investigate culture mixing as a critical challenge for LVLMs and examine how current models behave when cultural items from multiple regions appear together. To systematically analyze these behaviors, we construct CultureMix, a food Visual Question Answering (VQA) benchmark with 23k diffusion-generated, human-verified culture mixing images across four subtasks: (1) food-only, (2) food+food, (3) food+background, and (4) food+food+background. Evaluating 10 LVLMs, we find consistent failures to preserve individual cultural identities in mixed settings. Models show strong background reliance, with accuracy dropping 14% when cultural backgrounds are added to food-only baselines, and they produce inconsistent predictions for identical foods across different contexts. To address these limitations, we explore three robustness strategies. We find supervised fine-tuning using a diverse culture mixing dataset substantially improve model consistency and reduce background sensitivity. We call for increased attention to culture mixing scenarios as a critical step toward developing LVLMs capable of operating reliably in culturally diverse real-world environments.
PDF61December 2, 2025