정렬되었지만 고정관념적? LVLM 기반 텍스트-이미지 모델에서 시스템 프롬프트가 사회적 편향에 미치는 숨겨진 영향
Aligned but Stereotypical? The Hidden Influence of System Prompts on Social Bias in LVLM-Based Text-to-Image Models
December 4, 2025
저자: NaHyeon Park, Namin An, Kunhee Kim, Soyeon Yoon, Jiahao Huo, Hyunjung Shim
cs.AI
초록
대규모 시각-언어 모델(LVLM) 기반 텍스트-이미지(T2I) 시스템은 이미지 생성 분야의 주류 패러다임으로 자리 잡았으나, 사회적 편향성을 증폭시키는지 여부는 아직 충분히 규명되지 않았습니다. 본 논문에서는 LVLM 기반 모델이 비-LVLM 기반 모델보다 현저히 더 사회적으로 편향된 이미지를 생성함을 보여줍니다. 우리는 4단계의 언어적 복잡성을 아우르는 1,024개의 프롬프트 벤치마크를 도입하고 다중 속성에 걸친 인구통계학적 편향성을 체계적으로 평가합니다. 우리의 분석은 LVLM을 안내하는 미리 정의된 지시사항인 시스템 프롬프트가 편향된 행동의 주요 원인임을 규명합니다. 디코딩된 중간 표현, 토큰 확률 진단 및 임베딩 연관성 분석을 통해 시스템 프롬프트가 이미지 합성으로 전파되는 인구통계학적 사전 지식을 어떻게 인코딩하는지 밝힙니다. 이를 위해 우리는 LVLM이 테스트 시점에 자체 감사 및 공정성 인식 시스템 프롬프트를 구성할 수 있도록 하는 학습이 필요 없는 메타 프롬프팅 프레임워크인 FairPro를 제안합니다. 두 가지 LVLM 기반 T2I 모델(SANA 및 Qwen-Image)에 대한 실험 결과, FairPro가 텍스트-이미지 정렬을 유지하면서 인구통계학적 편향성을 상당히 감소시킴을 확인했습니다. 우리는 본 연구 결과가 편향 전파에서 시스템 프롬프트의 중심 역할에 대한 심층적인 통찰을 제공하며, 더 사회적으로 책임 있는 T2I 시스템 구축을 위한 실용적이고 배포 가능한 접근법을 제시한다고 믿습니다.
English
Large vision-language model (LVLM) based text-to-image (T2I) systems have become the dominant paradigm in image generation, yet whether they amplify social biases remains insufficiently understood. In this paper, we show that LVLM-based models produce markedly more socially biased images than non-LVLM-based models. We introduce a 1,024 prompt benchmark spanning four levels of linguistic complexity and evaluate demographic bias across multiple attributes in a systematic manner. Our analysis identifies system prompts, the predefined instructions guiding LVLMs, as a primary driver of biased behavior. Through decoded intermediate representations, token-probability diagnostics, and embedding-association analyses, we reveal how system prompts encode demographic priors that propagate into image synthesis. To this end, we propose FairPro, a training-free meta-prompting framework that enables LVLMs to self-audit and construct fairness-aware system prompts at test time. Experiments on two LVLM-based T2I models, SANA and Qwen-Image, show that FairPro substantially reduces demographic bias while preserving text-image alignment. We believe our findings provide deeper insight into the central role of system prompts in bias propagation and offer a practical, deployable approach for building more socially responsible T2I systems.