ChatPaper.aiChatPaper

Alignement esthétique et risques d'assimilation : Comment la génération d'images et les modèles de récompense renforcent les biais de beauté et la "censure" idéologique

Aesthetic Alignment Risks Assimilation: How Image Generation and Reward Models Reinforce Beauty Bias and Ideological "Censorship"

December 9, 2025
papers.authors: Wenqi Marshall Guo, Qingyun Qian, Khalad Hasan, Shan Du
cs.AI

papers.abstract

L'alignement excessif des modèles de génération d'images sur une préférence esthétique généralisée entre en conflit avec l'intention de l'utilisateur, particulièrement lorsque des résultats « anti-esthétiques » sont demandés à des fins artistiques ou critiques. Cette adhésion priorise des valeurs centrées sur le développeur, compromettant l'autonomie de l'utilisateur et le pluralisme esthétique. Nous testons ce biais en construisant un jeu de données esthétique à large spectre et en évaluant les modèles de génération et de récompense les plus avancés. Nous constatons que les modèles de génération alignés esthétiquement produisent fréquemment par défaut des résultats conventionnellement beaux, ne respectant pas les instructions demandant des images de faible qualité ou négatives. Fait crucial, les modèles de récompense pénalisent les images anti-esthétiques même lorsqu'elles correspondent parfaitement à l'instruction explicite de l'utilisateur. Nous confirmons ce biais systémique via l'édition d'image-à-image et l'évaluation contre de véritables œuvres d'art abstraites.
English
Over-aligning image generation models to a generalized aesthetic preference conflicts with user intent, particularly when ``anti-aesthetic" outputs are requested for artistic or critical purposes. This adherence prioritizes developer-centered values, compromising user autonomy and aesthetic pluralism. We test this bias by constructing a wide-spectrum aesthetics dataset and evaluating state-of-the-art generation and reward models. We find that aesthetic-aligned generation models frequently default to conventionally beautiful outputs, failing to respect instructions for low-quality or negative imagery. Crucially, reward models penalize anti-aesthetic images even when they perfectly match the explicit user prompt. We confirm this systemic bias through image-to-image editing and evaluation against real abstract artworks.
PDF62December 17, 2025