文化が色あせる場所:テクストから画像生成における文化的ギャップの解明
Where Culture Fades: Revealing the Cultural Gap in Text-to-Image Generation
November 21, 2025
著者: Chuancheng Shi, Shangze Li, Shiming Guo, Simiao Xie, Wenhua Wu, Jingtong Dou, Chao Wu, Canran Xiao, Cong Wang, Zifeng Cheng, Fei Shen, Tat-Seng Chua
cs.AI
要旨
多言語テキスト画像生成(T2I)モデルは、視覚的なリアリズムと意味的整合性において急速に進歩し、現在広く利用されている。しかし、その出力は文化的文脈によって異なる。言語は文化的含意を内包するため、多言語プロンプトから合成される画像は、言語横断的な文化的一貫性を保持すべきである。我々は包括的分析を行い、現在のT2Iモデルが多言語プロンプトに対して文化的に中立な、または英語バイアスのかかった結果を生成しがちであることを明らかにした。代表的な2つのモデルを分析した結果、この問題は文化的知識の欠如ではなく、文化関連の表現が十分に活性化されていないことに起因することが示唆された。我々は、文化に敏感な信号を少数の固定層内の小さなニューロン群に局在化させるプロービング手法を提案する。この知見に基づき、二つの相補的なアライメント戦略を導入する:(1)バックボーンのファインチューニングを必要とせず、特定されたニューロンを増幅する推論時文化的活性化、および(2)文化的に関連する層のみを更新する層ターゲット型文化強化である。我々が構築したCultureBenchを用いた実験により、忠実性と多様性を保ちつつ、強力なベースラインを上回る文化的一貫性の向上が一貫して確認された。
English
Multilingual text-to-image (T2I) models have advanced rapidly in terms of visual realism and semantic alignment, and are now widely utilized. Yet outputs vary across cultural contexts: because language carries cultural connotations, images synthesized from multilingual prompts should preserve cross-lingual cultural consistency. We conduct a comprehensive analysis showing that current T2I models often produce culturally neutral or English-biased results under multilingual prompts. Analyses of two representative models indicate that the issue stems not from missing cultural knowledge but from insufficient activation of culture-related representations. We propose a probing method that localizes culture-sensitive signals to a small set of neurons in a few fixed layers. Guided by this finding, we introduce two complementary alignment strategies: (1) inference-time cultural activation that amplifies the identified neurons without backbone fine-tuned; and (2) layer-targeted cultural enhancement that updates only culturally relevant layers. Experiments on our CultureBench demonstrate consistent improvements over strong baselines in cultural consistency while preserving fidelity and diversity.