Wereld in een Kader: Cultuurvermenging Begrijpen als Nieuwe Uitdaging voor Visueel-Taalmodellen
World in a Frame: Understanding Culture Mixing as a New Challenge for Vision-Language Models
November 27, 2025
Auteurs: Eunsu Kim, Junyeong Park, Na Min An, Junseong Kim, Hitesh Laxmichand Patel, Jiho Jin, Julia Kruk, Amit Agarwal, Srikant Panda, Fenal Ashokbhai Ilasariya, Hyunjung Shim, Alice Oh
cs.AI
Samenvatting
In een geglobaliseerde wereld verschijnen culturele elementen van uiteenlopende oorsprong frequent samen binnen één visueel beeld. Wij duiden deze aan als cultuurvermengingsscenario's, maar hoe Large Vision-Language Models (LVLM's) deze waarnemen blijft onderbelicht. Wij onderzoeken cultuurvermenging als een kritieke uitdaging voor LVLM's en analyseren hoe huidige modellen zich gedragen wanneer culturele items uit meerdere regio's samen verschijnen. Om dit gedrag systematisch te analyseren, construeren wij CultureMix, een visueel vraag-antwoordbenchmark (VQA) voor voedsel met 23k door diffusie gegenereerde, door mensen geverifieerde cultuurvermengingsafbeeldingen verdeeld over vier subtaken: (1) alleen voedsel, (2) voedsel+voedsel, (3) voedsel+achtergrond, en (4) voedsel+voedsel+achtergrond. Na evaluatie van 10 LVLM's constateren wij consistente mislukkingen om individuele culturele identiteiten in gemengde settings te behouden. Modellen vertonen een sterke achtergrondafhankelijkheid, waarbij de nauwkeurigheid met 14% daalt wanneer culturele achtergronden worden toegevoegd aan de baseline met alleen voedsel, en zij produceren inconsistente voorspellingen voor identieke voedingsmiddelen in verschillende contexten. Om deze beperkingen aan te pakken, verkennen wij drie robuustheidsstrategieën. Wij stellen vast dat supervised fine-tuning met een diverse dataset voor cultuurvermenging de modelconsistentie aanzienlijk verbetert en de achtergrondgevoeligheid vermindert. Wij pleiten voor meer aandacht voor cultuurvermengingsscenario's als een cruciale stap naar de ontwikkeling van LVLM's die betrouwbaar kunnen functioneren in cultureel diverse real-world omgevingen.
English
In a globalized world, cultural elements from diverse origins frequently appear together within a single visual scene. We refer to these as culture mixing scenarios, yet how Large Vision-Language Models (LVLMs) perceive them remains underexplored. We investigate culture mixing as a critical challenge for LVLMs and examine how current models behave when cultural items from multiple regions appear together. To systematically analyze these behaviors, we construct CultureMix, a food Visual Question Answering (VQA) benchmark with 23k diffusion-generated, human-verified culture mixing images across four subtasks: (1) food-only, (2) food+food, (3) food+background, and (4) food+food+background. Evaluating 10 LVLMs, we find consistent failures to preserve individual cultural identities in mixed settings. Models show strong background reliance, with accuracy dropping 14% when cultural backgrounds are added to food-only baselines, and they produce inconsistent predictions for identical foods across different contexts. To address these limitations, we explore three robustness strategies. We find supervised fine-tuning using a diverse culture mixing dataset substantially improve model consistency and reduce background sensitivity. We call for increased attention to culture mixing scenarios as a critical step toward developing LVLMs capable of operating reliably in culturally diverse real-world environments.