L'image comme sa propre récompense : Apprentissage par renforcement avec récompense antagoniste pour la génération d'images
The Image as Its Own Reward: Reinforcement Learning with Adversarial Reward for Image Generation
November 25, 2025
papers.authors: Weijia Mao, Hao Chen, Zhenheng Yang, Mike Zheng Shou
cs.AI
papers.abstract
Une fonction de récompense fiable est essentielle pour l'apprentissage par renforcement (RL) dans la génération d'images. La plupart des approches RL actuelles dépendent de modèles de préférence pré-entraînés qui produisent des récompenses scalaires pour approximer les préférences humaines. Cependant, ces récompenses échouent souvent à capturer la perception humaine et sont vulnérables au détournement de récompense (reward hacking), où des scores plus élevés ne correspondent pas à de meilleures images. Pour résoudre ce problème, nous présentons Adv-GRPO, un cadre RL avec une récompense antagoniste qui met à jour itérativement à la fois le modèle de récompense et le générateur. Le modèle de récompense est supervisé en utilisant des images de référence comme échantillons positifs et peut largement éviter d'être détourné. Contrairement à la régularisation KL qui contraint les mises à jour des paramètres, notre récompense apprise guide directement le générateur via ses sorties visuelles, conduisant à des images de plus haute qualité. De plus, bien qu'optimiser les fonctions de récompense existantes puisse atténuer le détournement de récompense, leurs biais inhérents persistent. Par exemple, PickScore peut dégrader la qualité de l'image, tandis que les récompenses basées sur la ROC réduisent souvent la fidélité esthétique. Pour résoudre cela, nous prenons l'image elle-même comme récompense, en utilisant des images de référence et des modèles de fondation vision (par exemple, DINO) pour fournir des récompenses visuelles riches. Ces signaux visuels denses, au lieu d'un seul scalaire, entraînent des gains constants sur la qualité d'image, l'esthétique et les métriques spécifiques aux tâches. Enfin, nous montrons que combiner des échantillons de référence avec des récompenses issues de modèles de fondation permet un transfert de distribution et une personnalisation de style flexible. Lors de l'évaluation humaine, notre méthode surpasse Flow-GRPO et SD3, atteignant des taux de victoire de 70,0 % et 72,4 % pour la qualité d'image et l'esthétique, respectivement. Le code et les modèles ont été publiés.
English
A reliable reward function is essential for reinforcement learning (RL) in image generation. Most current RL approaches depend on pre-trained preference models that output scalar rewards to approximate human preferences. However, these rewards often fail to capture human perception and are vulnerable to reward hacking, where higher scores do not correspond to better images. To address this, we introduce Adv-GRPO, an RL framework with an adversarial reward that iteratively updates both the reward model and the generator. The reward model is supervised using reference images as positive samples and can largely avoid being hacked. Unlike KL regularization that constrains parameter updates, our learned reward directly guides the generator through its visual outputs, leading to higher-quality images. Moreover, while optimizing existing reward functions can alleviate reward hacking, their inherent biases remain. For instance, PickScore may degrade image quality, whereas OCR-based rewards often reduce aesthetic fidelity. To address this, we take the image itself as a reward, using reference images and vision foundation models (e.g., DINO) to provide rich visual rewards. These dense visual signals, instead of a single scalar, lead to consistent gains across image quality, aesthetics, and task-specific metrics. Finally, we show that combining reference samples with foundation-model rewards enables distribution transfer and flexible style customization. In human evaluation, our method outperforms Flow-GRPO and SD3, achieving 70.0% and 72.4% win rates in image quality and aesthetics, respectively. Code and models have been released.