Там, где угасает культура: раскрывая культурный разрыв в генерации изображений по тексту
Where Culture Fades: Revealing the Cultural Gap in Text-to-Image Generation
November 21, 2025
Авторы: Chuancheng Shi, Shangze Li, Shiming Guo, Simiao Xie, Wenhua Wu, Jingtong Dou, Chao Wu, Canran Xiao, Cong Wang, Zifeng Cheng, Fei Shen, Tat-Seng Chua
cs.AI
Аннотация
Многоязычные модели преобразования текста в изображение (T2I) быстро развиваются в плане визуального реализма и семантического соответствия и находят широкое применение. Однако результаты их работы варьируются в различных культурных контекстах: поскольку язык несет культурные коннотации, изображения, синтезированные по многоязычным запросам, должны сохранять кросс-лингвистическую культурную согласованность. Мы проводим комплексный анализ, показывающий, что современные T2I-модели часто выдают культурно-нейтральные или смещенные в сторону англоязычной культуры результаты при работе с многоязычными промптами. Анализ двух репрезентативных моделей указывает, что проблема заключается не в отсутствии культурных знаний, а в недостаточной активации репрезентаций, связанных с культурой. Мы предлагаем метод зондирования, который локализует культурно-чувствительные сигналы в небольшой группе нейронов нескольких фиксированных слоев. Руководствуясь этим открытием, мы представляем две взаимодополняющие стратегии выравнивания: (1) культурную активацию на этапе вывода, которая усиливает идентифицированные нейроны без тонкой настройки основной архитектуры; и (2) целевую культурную адаптацию на уровне слоев, которая обновляет только культурно-релевантные слои. Эксперименты на нашем бенчмарке CultureBench демонстрируют последовательное улучшение культурной согласованности по сравнению с сильными базовыми моделями при сохранении точности и разнообразия результатов.
English
Multilingual text-to-image (T2I) models have advanced rapidly in terms of visual realism and semantic alignment, and are now widely utilized. Yet outputs vary across cultural contexts: because language carries cultural connotations, images synthesized from multilingual prompts should preserve cross-lingual cultural consistency. We conduct a comprehensive analysis showing that current T2I models often produce culturally neutral or English-biased results under multilingual prompts. Analyses of two representative models indicate that the issue stems not from missing cultural knowledge but from insufficient activation of culture-related representations. We propose a probing method that localizes culture-sensitive signals to a small set of neurons in a few fixed layers. Guided by this finding, we introduce two complementary alignment strategies: (1) inference-time cultural activation that amplifies the identified neurons without backbone fine-tuned; and (2) layer-targeted cultural enhancement that updates only culturally relevant layers. Experiments on our CultureBench demonstrate consistent improvements over strong baselines in cultural consistency while preserving fidelity and diversity.