La Imagen como su Propia Recompensa: Aprendizaje por Refuerzo con Recompensa Adversaria para la Generación de Imágenes
The Image as Its Own Reward: Reinforcement Learning with Adversarial Reward for Image Generation
November 25, 2025
Autores: Weijia Mao, Hao Chen, Zhenheng Yang, Mike Zheng Shou
cs.AI
Resumen
Una función de recompensa confiable es esencial para el aprendizaje por refuerzo (RL) en la generación de imágenes. La mayoría de los enfoques actuales de RL dependen de modelos de preferencia preentrenados que generan recompensas escalares para aproximar las preferencias humanas. Sin embargo, estas recompensas a menudo no logran capturar la percepción humana y son vulnerables a la manipulación de recompensas (*reward hacking*), donde puntuaciones más altas no se corresponden con imágenes mejores. Para abordar esto, presentamos Adv-GRPO, un marco de RL con una recompensa adversarial que actualiza iterativamente tanto el modelo de recompensa como el generador. El modelo de recompensa se supervisa utilizando imágenes de referencia como muestras positivas y puede evitar en gran medida ser manipulado. A diferencia de la regularización KL que restringe las actualizaciones de parámetros, nuestra recompensa aprendida guía directamente al generador a través de sus salidas visuales, lo que conduce a imágenes de mayor calidad. Además, si bien optimizar las funciones de recompensa existentes puede aliviar la manipulación de recompensas, sus sesgos inherentes persisten. Por ejemplo, PickScore puede degradar la calidad de la imagen, mientras que las recompensas basadas en OCR a menudo reducen la fidelidad estética. Para abordar esto, tomamos la imagen en sí como una recompensa, utilizando imágenes de referencia y modelos fundacionales de visión (por ejemplo, DINO) para proporcionar recompensas visuales ricas. Estas señales visuales densas, en lugar de un único escalar, conducen a mejoras consistentes en la calidad de la imagen, la estética y las métricas específicas de la tarea. Finalmente, demostramos que combinar muestras de referencia con recompensas de modelos fundacionales permite la transferencia de distribución y la personalización flexible de estilos. En evaluaciones humanas, nuestro método supera a Flow-GRPO y SD3, logrando tasas de preferencia del 70.0% y 72.4% en calidad de imagen y estética, respectivamente. El código y los modelos han sido publicados.
English
A reliable reward function is essential for reinforcement learning (RL) in image generation. Most current RL approaches depend on pre-trained preference models that output scalar rewards to approximate human preferences. However, these rewards often fail to capture human perception and are vulnerable to reward hacking, where higher scores do not correspond to better images. To address this, we introduce Adv-GRPO, an RL framework with an adversarial reward that iteratively updates both the reward model and the generator. The reward model is supervised using reference images as positive samples and can largely avoid being hacked. Unlike KL regularization that constrains parameter updates, our learned reward directly guides the generator through its visual outputs, leading to higher-quality images. Moreover, while optimizing existing reward functions can alleviate reward hacking, their inherent biases remain. For instance, PickScore may degrade image quality, whereas OCR-based rewards often reduce aesthetic fidelity. To address this, we take the image itself as a reward, using reference images and vision foundation models (e.g., DINO) to provide rich visual rewards. These dense visual signals, instead of a single scalar, lead to consistent gains across image quality, aesthetics, and task-specific metrics. Finally, we show that combining reference samples with foundation-model rewards enables distribution transfer and flexible style customization. In human evaluation, our method outperforms Flow-GRPO and SD3, achieving 70.0% and 72.4% win rates in image quality and aesthetics, respectively. Code and models have been released.