ChatPaper.aiChatPaper

Wo Kultur verblasst: Aufdeckung der kulturellen Kluft in der Text-zu-Bild-Generierung

Where Culture Fades: Revealing the Cultural Gap in Text-to-Image Generation

November 21, 2025
papers.authors: Chuancheng Shi, Shangze Li, Shiming Guo, Simiao Xie, Wenhua Wu, Jingtong Dou, Chao Wu, Canran Xiao, Cong Wang, Zifeng Cheng, Fei Shen, Tat-Seng Chua
cs.AI

papers.abstract

Mehrsprachige Text-zu-Bild-Modelle (T2I) haben rasche Fortschritte in Bezug auf visuelle Realitätsnähe und semantische Übereinstimmung erzielt und werden inzwischen breit eingesetzt. Dennoch variieren die Ergebnisse in verschiedenen kulturellen Kontexten: Da Sprache kulturelle Konnotationen trägt, sollten aus mehrsprachigen Prompts synthetisierte Bilder kulturübergreifende Konsistenz wahren. Wir führen eine umfassende Analyse durch, die zeigt, dass aktuelle T2I-Modelle bei mehrsprachigen Eingaben häufig kulturell neutrale oder englischsprachig geprägte Ergebnisse erzeugen. Untersuchungen an zwei repräsentativen Modellen deuten darauf hin, dass das Problem nicht auf fehlendem Kulturwissen beruht, sondern auf unzureichender Aktivierung kulturbezogener Repräsentationen. Wir schlagen eine Untersuchungsmethode vor, die kultursensitive Signale auf eine kleine Gruppe von Neuronen in wenigen festen Schichten lokalisiert. Aufbauend auf dieser Erkenntnis entwickeln wir zwei komplementäre Abgleichsstrategien: (1) kulturelle Aktivierung zur Inferenzzeit, die die identifizierten Neuronen verstärkt, ohne das Grundgerüst feinabzustimmen; und (2) schichtorientierte kulturelle Verstärkung, die nur kulturell relevante Schichten aktualisiert. Experimente auf unserer CultureBench zeigen durchgängige Verbesserungen gegenüber starken Baseline-Modellen in der kulturellen Konsistenz bei gleichzeitiger Bewahrung von Detailtreue und Vielfalt.
English
Multilingual text-to-image (T2I) models have advanced rapidly in terms of visual realism and semantic alignment, and are now widely utilized. Yet outputs vary across cultural contexts: because language carries cultural connotations, images synthesized from multilingual prompts should preserve cross-lingual cultural consistency. We conduct a comprehensive analysis showing that current T2I models often produce culturally neutral or English-biased results under multilingual prompts. Analyses of two representative models indicate that the issue stems not from missing cultural knowledge but from insufficient activation of culture-related representations. We propose a probing method that localizes culture-sensitive signals to a small set of neurons in a few fixed layers. Guided by this finding, we introduce two complementary alignment strategies: (1) inference-time cultural activation that amplifies the identified neurons without backbone fine-tuned; and (2) layer-targeted cultural enhancement that updates only culturally relevant layers. Experiments on our CultureBench demonstrate consistent improvements over strong baselines in cultural consistency while preserving fidelity and diversity.
PDF81December 3, 2025