Alinhamento Estético Arrisca a Assimilação: Como a Geração de Imagem e Modelos de Recompensa Reforçam o Viés de Beleza e a "Censura" Ideológica

Resumo

O alinhamento excessivo dos modelos de geração de imagens a uma preferência estética generalizada entra em conflito com a intenção do utilizador, especialmente quando são solicitados resultados "antiestéticos" para fins artísticos ou críticos. Esta adesão prioriza valores centrados no programador, comprometendo a autonomia do utilizador e o pluralismo estético. Testamos este viés construindo um conjunto de dados de estética de amplo espectro e avaliando modelos de geração e recompensa de última geração. Descobrimos que os modelos de geração alinhados esteticamente recorrem frequentemente a resultados convencionalmente belos, falhando em respeitar instruções para imagens de baixa qualidade ou negativas. Crucialmente, os modelos de recompensa penalizam imagens antiestéticas mesmo quando estas correspondem perfeitamente ao prompt explícito do utilizador. Confirmamos este viés sistémico através de edição imagem-a-imagem e avaliação contra obras de arte abstratas reais.

English

Over-aligning image generation models to a generalized aesthetic preference conflicts with user intent, particularly when ``anti-aesthetic" outputs are requested for artistic or critical purposes. This adherence prioritizes developer-centered values, compromising user autonomy and aesthetic pluralism. We test this bias by constructing a wide-spectrum aesthetics dataset and evaluating state-of-the-art generation and reward models. We find that aesthetic-aligned generation models frequently default to conventionally beautiful outputs, failing to respect instructions for low-quality or negative imagery. Crucially, reward models penalize anti-aesthetic images even when they perfectly match the explicit user prompt. We confirm this systemic bias through image-to-image editing and evaluation against real abstract artworks.

Alinhamento Estético Arrisca a Assimilação: Como a Geração de Imagem e Modelos de Recompensa Reforçam o Viés de Beleza e a "Censura" Ideológica

Aesthetic Alignment Risks Assimilation: How Image Generation and Reward Models Reinforce Beauty Bias and Ideological "Censorship"

Resumo

Support