美的アライメントは同化を招く危険性:画像生成と報酬モデルがいかに美のバイアスとイデオロギー的「検閲」を強化するか
Aesthetic Alignment Risks Assimilation: How Image Generation and Reward Models Reinforce Beauty Bias and Ideological "Censorship"
December 9, 2025
著者: Wenqi Marshall Guo, Qingyun Qian, Khalad Hasan, Shan Du
cs.AI
要旨
画像生成モデルを一般化された美的嗜好に過度に適合させることは、特に芸術的・批評的目的で「反美的」な出力が要求される場合、ユーザーの意図と衝突する。このような適合は開発者中心の価値観を優先し、ユーザーの自律性と美的多元性を損なう。我々は広範な美的スペクトルデータセットを構築し、最先端の生成モデル・報酬モデルを評価することで、このバイアスを検証する。美的適合された生成モデルは、低品質や否定的な画像の指示があっても、慣習的に美しい出力に陥りがちである。決定的に、報酬モデルは明示的なユーザープロンプトに完全に合致する反美的画像すらも罰する。画像編集タスクと実在の抽象芸術作品を用いた評価を通じて、この体系的なバイアスを確認した。
English
Over-aligning image generation models to a generalized aesthetic preference conflicts with user intent, particularly when ``anti-aesthetic" outputs are requested for artistic or critical purposes. This adherence prioritizes developer-centered values, compromising user autonomy and aesthetic pluralism. We test this bias by constructing a wide-spectrum aesthetics dataset and evaluating state-of-the-art generation and reward models. We find that aesthetic-aligned generation models frequently default to conventionally beautiful outputs, failing to respect instructions for low-quality or negative imagery. Crucially, reward models penalize anti-aesthetic images even when they perfectly match the explicit user prompt. We confirm this systemic bias through image-to-image editing and evaluation against real abstract artworks.