Mundo em um Quadro: Compreendendo a Mistura Cultural como um Novo Desafio para Modelos de Visão e Linguagem

Resumo

Num mundo globalizado, elementos culturais de diversas origens aparecem frequentemente juntos numa única cena visual. Referimo-nos a estes como cenários de mistura cultural, mas a forma como os Grandes Modelos de Visão e Linguagem (LVLMs) os percecionam permanece pouco explorada. Investigamos a mistura cultural como um desafio crítico para os LVLMs e examinamos como os modelos atuais se comportam quando itens culturais de múltiplas regiões aparecem em conjunto. Para analisar sistematicamente estes comportamentos, construímos o CultureMix, um *benchmark* de Resposta Visual a Perguntas (VQA) sobre comida com 23 mil imagens de mistura cultural geradas por difusão e validadas humanamente, abrangendo quatro subtarefas: (1) apenas comida, (2) comida+comida, (3) comida+cenário de fundo e (4) comida+comida+cenário de fundo. Avaliando 10 LVLMs, descobrimos falhas consistentes na preservação de identidades culturais individuais em contextos mistos. Os modelos mostram uma forte dependência do cenário de fundo, com uma precisão a cair 14% quando contextos culturais são adicionados às linhas de base de apenas comida, e produzem previsões inconsistentes para os mesmos alimentos em diferentes contextos. Para superar estas limitações, exploramos três estratégias de robustez. Concluímos que o *fine-tuning* supervisionado usando um conjunto de dados diversificado de mistura cultural melhora substancialmente a consistência do modelo e reduz a sensibilidade ao cenário de fundo. Apelamos a uma maior atenção aos cenários de mistura cultural como um passo crítico para o desenvolvimento de LVLMs capazes de operar de forma fiável em ambientes do mundo real culturalmente diversificados.

English

In a globalized world, cultural elements from diverse origins frequently appear together within a single visual scene. We refer to these as culture mixing scenarios, yet how Large Vision-Language Models (LVLMs) perceive them remains underexplored. We investigate culture mixing as a critical challenge for LVLMs and examine how current models behave when cultural items from multiple regions appear together. To systematically analyze these behaviors, we construct CultureMix, a food Visual Question Answering (VQA) benchmark with 23k diffusion-generated, human-verified culture mixing images across four subtasks: (1) food-only, (2) food+food, (3) food+background, and (4) food+food+background. Evaluating 10 LVLMs, we find consistent failures to preserve individual cultural identities in mixed settings. Models show strong background reliance, with accuracy dropping 14% when cultural backgrounds are added to food-only baselines, and they produce inconsistent predictions for identical foods across different contexts. To address these limitations, we explore three robustness strategies. We find supervised fine-tuning using a diverse culture mixing dataset substantially improve model consistency and reduce background sensitivity. We call for increased attention to culture mixing scenarios as a critical step toward developing LVLMs capable of operating reliably in culturally diverse real-world environments.

Mundo em um Quadro: Compreendendo a Mistura Cultural como um Novo Desafio para Modelos de Visão e Linguagem

World in a Frame: Understanding Culture Mixing as a New Challenge for Vision-Language Models

Resumo

Support