Esthetische Afstemming Riskeert Assimilatie: Hoe Beeldgeneratie en Beloningsmodellen Schoonheidsvooroordelen en Ideologische 'Censuur' Versterken
Aesthetic Alignment Risks Assimilation: How Image Generation and Reward Models Reinforce Beauty Bias and Ideological "Censorship"
December 9, 2025
Auteurs: Wenqi Marshall Guo, Qingyun Qian, Khalad Hasan, Shan Du
cs.AI
Samenvatting
Het overmatig afstemmen van beeldgeneratiemodellen op een gegeneraliseerde esthetische voorkeur botst met de gebruikersintentie, vooral wanneer "anti-esthetische" uitkomsten worden gevraagd voor artistieke of kritische doeleinden. Deze afstemming geeft voorrang aan ontwikkelaarsgerichte waarden, ten koste van gebruikersautonomie en esthetisch pluralisme. Wij testen deze bias door een breedspectrum-estheticadataset te construeren en state-of-the-art generatie- en beloningsmodellen te evalueren. Wij constateren dat esthetisch afgestemde generatiemodellen vaak terugvallen op conventioneel mooie uitkomsten, waarbij instructies voor laagkwalitatieve of negatieve beelden niet worden gerespecteerd. Cruciaal is dat beloningsmodellen anti-esthetische beelden bestraffen, zelfs wanneer deze perfect aansluiten bij de expliciete gebruikersprompt. Wij bevestigen deze systemische bias door beeld-naar-beeld-bewerking en evaluatie tegenover echte abstracte kunstwerken.
English
Over-aligning image generation models to a generalized aesthetic preference conflicts with user intent, particularly when ``anti-aesthetic" outputs are requested for artistic or critical purposes. This adherence prioritizes developer-centered values, compromising user autonomy and aesthetic pluralism. We test this bias by constructing a wide-spectrum aesthetics dataset and evaluating state-of-the-art generation and reward models. We find that aesthetic-aligned generation models frequently default to conventionally beautiful outputs, failing to respect instructions for low-quality or negative imagery. Crucially, reward models penalize anti-aesthetic images even when they perfectly match the explicit user prompt. We confirm this systemic bias through image-to-image editing and evaluation against real abstract artworks.