문화가 사라지는 곳: 텍스트-이미지 생성 기술이 드러내는 문화적 간극
Where Culture Fades: Revealing the Cultural Gap in Text-to-Image Generation
November 21, 2025
저자: Chuancheng Shi, Shangze Li, Shiming Guo, Simiao Xie, Wenhua Wu, Jingtong Dou, Chao Wu, Canran Xiao, Cong Wang, Zifeng Cheng, Fei Shen, Tat-Seng Chua
cs.AI
초록
다국어 텍스트-이미지(T2I) 모델은 시각적 현실성과 의미론적 정렬 측면에서 빠르게 발전하여 현재 널리 활용되고 있습니다. 그러나 생성 결과는 문화적 맥락에 따라 상이한데, 언어가 문화적 함의를 내포하기 때문에 다국어 프롬프트로 합성된 이미지는 교차 언어적 문화 일관성을 유지해야 합니다. 본 연구는 현행 T2I 모델이 다국어 프롬프트 하에서 문화적으로 중립적이거나 영어 중심적인 결과를 내는 경우가 많다는 포괄적 분석을 수행합니다. 두 가지 대표 모델에 대한 분석 결과, 해당 문제는 문화적 지식의 부재가 아니라 문화 관련 표현의 활성화 부족에서 비롯됨을 확인했습니다. 우리는 문화 민감도 신호를 소수의 고정된 계층 내 특정 뉴런 집합으로 위치 특정하는 프로빙 방법을 제안합니다. 이러한 발견을 바탕으로 두 가지 상호 보완적 정렬 전략을 도입합니다: (1) 백본 미세 조정 없이 식별된 뉴런을 증폭하는 추론 시점 문화 활성화와 (2) 문화 관련 계층만을 업데이트하는 계층 대상 문화 강화입니다. 우리가 구축한 CultureBench에서의 실험 결과, 강력한 베이스라인 대비 화질과 다양성을 유지하면서 문화 일관성에서 지속적인 개선을 확인했습니다.
English
Multilingual text-to-image (T2I) models have advanced rapidly in terms of visual realism and semantic alignment, and are now widely utilized. Yet outputs vary across cultural contexts: because language carries cultural connotations, images synthesized from multilingual prompts should preserve cross-lingual cultural consistency. We conduct a comprehensive analysis showing that current T2I models often produce culturally neutral or English-biased results under multilingual prompts. Analyses of two representative models indicate that the issue stems not from missing cultural knowledge but from insufficient activation of culture-related representations. We propose a probing method that localizes culture-sensitive signals to a small set of neurons in a few fixed layers. Guided by this finding, we introduce two complementary alignment strategies: (1) inference-time cultural activation that amplifies the identified neurons without backbone fine-tuned; and (2) layer-targeted cultural enhancement that updates only culturally relevant layers. Experiments on our CultureBench demonstrate consistent improvements over strong baselines in cultural consistency while preserving fidelity and diversity.