Mondo in una cornice: comprendere la fusione culturale come nuova sfida per i modelli visione-linguaggio
World in a Frame: Understanding Culture Mixing as a New Challenge for Vision-Language Models
November 27, 2025
Autori: Eunsu Kim, Junyeong Park, Na Min An, Junseong Kim, Hitesh Laxmichand Patel, Jiho Jin, Julia Kruk, Amit Agarwal, Srikant Panda, Fenal Ashokbhai Ilasariya, Hyunjung Shim, Alice Oh
cs.AI
Abstract
In un mondo globalizzato, elementi culturali di diversa origine compaiono frequentemente insieme all'interno di una singola scena visiva. Definiamo questi casi come scenari di mescolanza culturale, ma la percezione che i Large Vision-Language Models (LVLM) hanno di essi rimane poco esplorata. Indaghiamo la mescolanza culturale come una sfida cruciale per gli LVLM ed esaminiamo il comportamento dei modelli attuali quando elementi culturali provenienti da più regioni appaiono insieme. Per analizzare sistematicamente questi comportamenti, abbiamo creato CultureMix, un benchmark di Visual Question Answering (VQA) sul cibo composto da 23k immagini di mescolanza culturale generate tramite diffusione e verificate da esseri umani, articolato in quattro sottocompiti: (1) solo cibo, (2) cibo+cibo, (3) cibo+sfondo, (4) cibo+cibo+sfondo. Valutando 10 LVLM, riscontriamo fallimenti consistenti nel preservare le identità culturali individuali in contesti misti. I modelli mostrano una forte dipendenza dallo sfondo, con un'accuratezza che cala del 14% quando si aggiungono sfondi culturali ai benchmark di solo cibo, e producono previsioni incoerenti per gli stessi alimenti in contesti diversi. Per affrontare queste limitazioni, esploriamo tre strategie di robustezza. Rileviamo che un fine-tuning supervisionato che utilizza un dataset diversificato di mescolanza culturale migliora sostanzialmente la coerenza del modello e riduce la sensibilità allo sfondo. Sollecitiamo una maggiore attenzione verso gli scenari di mescolanza culturale come passo critico per sviluppare LVLM in grado di operare in modo affidabile in ambienti real-world culturalmente diversificati.
English
In a globalized world, cultural elements from diverse origins frequently appear together within a single visual scene. We refer to these as culture mixing scenarios, yet how Large Vision-Language Models (LVLMs) perceive them remains underexplored. We investigate culture mixing as a critical challenge for LVLMs and examine how current models behave when cultural items from multiple regions appear together. To systematically analyze these behaviors, we construct CultureMix, a food Visual Question Answering (VQA) benchmark with 23k diffusion-generated, human-verified culture mixing images across four subtasks: (1) food-only, (2) food+food, (3) food+background, and (4) food+food+background. Evaluating 10 LVLMs, we find consistent failures to preserve individual cultural identities in mixed settings. Models show strong background reliance, with accuracy dropping 14% when cultural backgrounds are added to food-only baselines, and they produce inconsistent predictions for identical foods across different contexts. To address these limitations, we explore three robustness strategies. We find supervised fine-tuning using a diverse culture mixing dataset substantially improve model consistency and reduce background sensitivity. We call for increased attention to culture mixing scenarios as a critical step toward developing LVLMs capable of operating reliably in culturally diverse real-world environments.