A Imagem como sua Própria Recompensa: Aprendizado por Reforço com Recompensa Adversária para Geração de Imagens
The Image as Its Own Reward: Reinforcement Learning with Adversarial Reward for Image Generation
November 25, 2025
Autores: Weijia Mao, Hao Chen, Zhenheng Yang, Mike Zheng Shou
cs.AI
Resumo
Uma função de recompensa confiável é essencial para o aprendizado por reforço (RL) na geração de imagens. A maioria das abordagens de RL atuais depende de modelos de preferência pré-treinados que produzem recompensas escalares para aproximar as preferências humanas. No entanto, essas recompensas frequentemente falham em capturar a percepção humana e são vulneráveis a *reward hacking*, onde pontuações mais altas não correspondem a imagens melhores. Para resolver isso, introduzimos o Adv-GRPO, uma estrutura de RL com uma recompensa adversarial que atualiza iterativamente tanto o modelo de recompensa quanto o gerador. O modelo de recompensa é supervisionado usando imagens de referência como amostras positivas e pode evitar em grande parte ser hackeado. Diferente da regularização KL que restringe atualizações de parâmetros, nossa recompensa aprendida guia diretamente o gerador através de suas saídas visuais, resultando em imagens de maior qualidade. Além disso, embora otimizar funções de recompensa existentes possa aliviar o *reward hacking*, seus vieses inerentes permanecem. Por exemplo, o PickScore pode degradar a qualidade da imagem, enquanto recompensas baseadas em OCR frequentemente reduzem a fidelidade estética. Para resolver isso, tomamos a própria imagem como uma recompensa, usando imagens de referência e modelos de base de visão (por exemplo, DINO) para fornecer recompensas visuais ricas. Esses sinais visuais densos, em vez de um único escalar, levam a ganhos consistentes em qualidade de imagem, estética e métricas específicas da tarefa. Finalmente, mostramos que combinar amostras de referência com recompensas de modelos de base permite transferência de distribuição e personalização de estilo flexível. Na avaliação humana, nosso método supera o Flow-GRPO e o SD3, alcançando taxas de vitória de 70,0% e 72,4% em qualidade de imagem e estética, respectivamente. Códigos e modelos foram disponibilizados.
English
A reliable reward function is essential for reinforcement learning (RL) in image generation. Most current RL approaches depend on pre-trained preference models that output scalar rewards to approximate human preferences. However, these rewards often fail to capture human perception and are vulnerable to reward hacking, where higher scores do not correspond to better images. To address this, we introduce Adv-GRPO, an RL framework with an adversarial reward that iteratively updates both the reward model and the generator. The reward model is supervised using reference images as positive samples and can largely avoid being hacked. Unlike KL regularization that constrains parameter updates, our learned reward directly guides the generator through its visual outputs, leading to higher-quality images. Moreover, while optimizing existing reward functions can alleviate reward hacking, their inherent biases remain. For instance, PickScore may degrade image quality, whereas OCR-based rewards often reduce aesthetic fidelity. To address this, we take the image itself as a reward, using reference images and vision foundation models (e.g., DINO) to provide rich visual rewards. These dense visual signals, instead of a single scalar, lead to consistent gains across image quality, aesthetics, and task-specific metrics. Finally, we show that combining reference samples with foundation-model rewards enables distribution transfer and flexible style customization. In human evaluation, our method outperforms Flow-GRPO and SD3, achieving 70.0% and 72.4% win rates in image quality and aesthetics, respectively. Code and models have been released.