Изображение как собственная награда: обучение с подкреплением с состязательной функцией вознаграждения для генерации изображений
The Image as Its Own Reward: Reinforcement Learning with Adversarial Reward for Image Generation
November 25, 2025
Авторы: Weijia Mao, Hao Chen, Zhenheng Yang, Mike Zheng Shou
cs.AI
Аннотация
Надежная функция вознаграждения крайне важна для обучения с подкреплением (RL) в задаче генерации изображений. Большинство современных подходов RL полагаются на предварительно обученные модели предпочтений, которые выводят скалярные вознаграждения для аппроксимации человеческих предпочтений. Однако эти вознаграждения часто не отражают человеческое восприятие и уязвимы для взлома (reward hacking), когда более высокие баллы не соответствуют лучшим изображениям. Для решения этой проблемы мы представляем Adv-GRPO — RL-фреймворк с адверсарным вознаграждением, который итеративно обновляет как модель вознаграждения, так и генератор. Модель вознаграждения обучается с учителем, используя эталонные изображения в качестве позитивных примеров, что позволяет в значительной степени избежать взлома. В отличие от KL-регуляризации, которая ограничивает обновления параметров, наше обученное вознаграждение напрямую направляет генератор через его визуальные выходы, что приводит к созданию изображений более высокого качества. Более того, хотя оптимизация существующих функций вознаграждения может смягчить проблему взлома, их внутренние смещения остаются. Например, PickScore может ухудшать качество изображения, тогда как вознаграждения на основе OCR часто снижают эстетическую достоверность. Чтобы решить эту проблему, мы используем само изображение в качестве вознаграждения, применяя эталонные изображения и фундаментальные модели компьютерного зрения (например, DINO) для предоставления богатых визуальных вознаграждений. Эти плотные визуальные сигналы, в отличие от единственного скаляра, приводят к последовательному улучшению по метрикам качества изображения, эстетики и специфичным для задачи показателям. Наконец, мы показываем, что комбинация эталонных образцов с вознаграждениями от фундаментальных моделей позволяет осуществлять перенос распределения и гибкую настройку стиля. При оценке людьми наш метод превосходит Flow-GRPO и SD3, достигая 70.0% и 72.4% процентов предпочтений по качеству изображения и эстетике соответственно. Код и модели были опубликованы.
English
A reliable reward function is essential for reinforcement learning (RL) in image generation. Most current RL approaches depend on pre-trained preference models that output scalar rewards to approximate human preferences. However, these rewards often fail to capture human perception and are vulnerable to reward hacking, where higher scores do not correspond to better images. To address this, we introduce Adv-GRPO, an RL framework with an adversarial reward that iteratively updates both the reward model and the generator. The reward model is supervised using reference images as positive samples and can largely avoid being hacked. Unlike KL regularization that constrains parameter updates, our learned reward directly guides the generator through its visual outputs, leading to higher-quality images. Moreover, while optimizing existing reward functions can alleviate reward hacking, their inherent biases remain. For instance, PickScore may degrade image quality, whereas OCR-based rewards often reduce aesthetic fidelity. To address this, we take the image itself as a reward, using reference images and vision foundation models (e.g., DINO) to provide rich visual rewards. These dense visual signals, instead of a single scalar, lead to consistent gains across image quality, aesthetics, and task-specific metrics. Finally, we show that combining reference samples with foundation-model rewards enables distribution transfer and flexible style customization. In human evaluation, our method outperforms Flow-GRPO and SD3, achieving 70.0% and 72.4% win rates in image quality and aesthetics, respectively. Code and models have been released.