Onde a Cultura Desvanece: Revelando a Lacuna Cultural na Geração de Imagens a partir de Texto

Resumo

Os modelos multilingues de texto para imagem (T2I) avançaram rapidamente em termos de realismo visual e alinhamento semântico, sendo agora amplamente utilizados. No entanto, as saídas variam conforme os contextos culturais: como a linguagem carrega conotações culturais, as imagens sintetizadas a partir de *prompts* multilingues devem preservar a consistência cultural entre idiomas. Realizamos uma análise abrangente que mostra que os modelos T2I atuais frequentemente produzem resultados culturalmente neutros ou tendenciosos para o inglês sob *prompts* multilingues. Análises de dois modelos representativos indicam que o problema não deriva de conhecimento cultural ausente, mas de uma ativação insuficiente das representações relacionadas à cultura. Propomos um método de sondagem que localiza sinais sensíveis à cultura num pequeno conjunto de neurónios em algumas camadas fixas. Guiados por esta descoberta, introduzimos duas estratégias de alinhamento complementares: (1) uma ativação cultural em tempo de inferência que amplifica os neurónios identificados sem afinar o modelo base; e (2) um aprimoramento cultural direcionado por camadas que atualiza apenas as camadas culturalmente relevantes. Experiências no nosso *CultureBench* demonstram melhorias consistentes face a *baselines* robustas na consistência cultural, preservando a fidelidade e a diversidade.

English

Multilingual text-to-image (T2I) models have advanced rapidly in terms of visual realism and semantic alignment, and are now widely utilized. Yet outputs vary across cultural contexts: because language carries cultural connotations, images synthesized from multilingual prompts should preserve cross-lingual cultural consistency. We conduct a comprehensive analysis showing that current T2I models often produce culturally neutral or English-biased results under multilingual prompts. Analyses of two representative models indicate that the issue stems not from missing cultural knowledge but from insufficient activation of culture-related representations. We propose a probing method that localizes culture-sensitive signals to a small set of neurons in a few fixed layers. Guided by this finding, we introduce two complementary alignment strategies: (1) inference-time cultural activation that amplifies the identified neurons without backbone fine-tuned; and (2) layer-targeted cultural enhancement that updates only culturally relevant layers. Experiments on our CultureBench demonstrate consistent improvements over strong baselines in cultural consistency while preserving fidelity and diversity.

Onde a Cultura Desvanece: Revelando a Lacuna Cultural na Geração de Imagens a partir de Texto

Where Culture Fades: Revealing the Cultural Gap in Text-to-Image Generation

Resumo

Support