ChatPaper.aiChatPaper

Alignés mais stéréotypés ? L'influence cachée des prompts système sur les biais sociaux dans les modèles texte-image basés sur les LVLM

Aligned but Stereotypical? The Hidden Influence of System Prompts on Social Bias in LVLM-Based Text-to-Image Models

December 4, 2025
papers.authors: NaHyeon Park, Namin An, Kunhee Kim, Soyeon Yoon, Jiahao Huo, Hyunjung Shim
cs.AI

papers.abstract

Les systèmes de génération d'images à partir de texte (T2I) basés sur les grands modèles vision-langage (LVLM) sont devenus le paradigme dominant en synthèse d'images, mais la question de savoir s'ils amplifient les biais sociaux reste insuffisamment comprise. Dans cet article, nous démontrons que les modèles fondés sur les LVLM produisent des images nettement plus biaisées socialement que les modèles non basés sur les LVLM. Nous présentons un benchmark de 1 064 prompts couvrant quatre niveaux de complexité linguistique et évaluons systématiquement les biais démographiques selon de multiples attributs. Notre analyse identifie les prompts système - les instructions prédéfinies guidant les LVLM - comme un facteur déterminant des comportements biaisés. Par l'analyse des représentations intermédiaires décodées, des diagnostics probabilistes tokenisés et des associations vectorielles, nous révélons comment les prompts système encodent des a priori démographiques qui se propagent dans la synthèse d'images. Pour remédier à ce problème, nous proposons FairPro, un cadre métaprompting non supervisé permettant aux LVLM d'auto-auditer et de construire des prompts système équitables lors de l'inférence. Les expériences sur deux modèles T2I basés sur les LVLM, SANA et Qwen-Image, montrent que FairPro réduit substantiellement les biais démographiques tout en préservant l'alignement texte-image. Nous estimons que nos résultats fournissent un éclairage nouveau sur le rôle central des prompts système dans la propagation des biais et offrent une approche pratique et déployable pour construire des systèmes T2I socialement plus responsables.
English
Large vision-language model (LVLM) based text-to-image (T2I) systems have become the dominant paradigm in image generation, yet whether they amplify social biases remains insufficiently understood. In this paper, we show that LVLM-based models produce markedly more socially biased images than non-LVLM-based models. We introduce a 1,024 prompt benchmark spanning four levels of linguistic complexity and evaluate demographic bias across multiple attributes in a systematic manner. Our analysis identifies system prompts, the predefined instructions guiding LVLMs, as a primary driver of biased behavior. Through decoded intermediate representations, token-probability diagnostics, and embedding-association analyses, we reveal how system prompts encode demographic priors that propagate into image synthesis. To this end, we propose FairPro, a training-free meta-prompting framework that enables LVLMs to self-audit and construct fairness-aware system prompts at test time. Experiments on two LVLM-based T2I models, SANA and Qwen-Image, show that FairPro substantially reduces demographic bias while preserving text-image alignment. We believe our findings provide deeper insight into the central role of system prompts in bias propagation and offer a practical, deployable approach for building more socially responsible T2I systems.
PDF61December 6, 2025