Эстетическое выравнивание рискует ассимиляцией: как генерация изображений и модели вознаграждения усиливают предвзятость красоты и идеологическую «цензуру»
Aesthetic Alignment Risks Assimilation: How Image Generation and Reward Models Reinforce Beauty Bias and Ideological "Censorship"
December 9, 2025
Авторы: Wenqi Marshall Guo, Qingyun Qian, Khalad Hasan, Shan Du
cs.AI
Аннотация
Чрезмерное согласование моделей генерации изображений с обобщёнными эстетическими предпочтениями вступает в противоречие с намерениями пользователя, особенно когда запрашиваются «антиэстетичные» результаты для художественных или критических целей. Такое следование приоритизирует ценности, центрированные на разработчике, в ущерб автономии пользователя и эстетическому плюрализму. Мы проверяем это смещение, создавая широкоспектральный эстетический набор данных и оценивая современные модели генерации и оценки. Мы обнаруживаем, что эстетически согласованные модели генерации часто по умолчанию выдают условно красивые результаты, не соблюдая инструкции по созданию низкокачественных или негативных изображений. Ключевым моментом является то, что модели оценки штрафуют антиэстетичные изображения, даже когда они идеально соответствуют явному запросу пользователя. Мы подтверждаем это системное смещение с помощью редактирования «изображение-в-изображение» и оценки на примере реальных абстрактных произведений искусства.
English
Over-aligning image generation models to a generalized aesthetic preference conflicts with user intent, particularly when ``anti-aesthetic" outputs are requested for artistic or critical purposes. This adherence prioritizes developer-centered values, compromising user autonomy and aesthetic pluralism. We test this bias by constructing a wide-spectrum aesthetics dataset and evaluating state-of-the-art generation and reward models. We find that aesthetic-aligned generation models frequently default to conventionally beautiful outputs, failing to respect instructions for low-quality or negative imagery. Crucially, reward models penalize anti-aesthetic images even when they perfectly match the explicit user prompt. We confirm this systemic bias through image-to-image editing and evaluation against real abstract artworks.