ChatPaper.aiChatPaper

L'immagine come ricompensa in sé: apprendimento per rinforzo con ricompensa avversaria per la generazione di immagini

The Image as Its Own Reward: Reinforcement Learning with Adversarial Reward for Image Generation

November 25, 2025
Autori: Weijia Mao, Hao Chen, Zhenheng Yang, Mike Zheng Shou
cs.AI

Abstract

Una funzione di reward affidabile è essenziale per l'apprendimento per rinforzo (RL) nella generazione di immagini. La maggior parte degli approcci RL attuali si basa su modelli di preferenza pre-addestrati che restituiscono reward scalari per approssimare le preferenze umane. Tuttavia, questi reward spesso non catturano la percezione umana e sono vulnerabili al *reward hacking*, dove punteggi più alti non corrispondono a immagini migliori. Per affrontare questo problema, introduciamo Adv-GRPO, un framework RL con un reward avversario che aggiorna iterativamente sia il modello del reward che il generatore. Il modello del reward è supervisionato utilizzando immagini di riferimento come campioni positivi e può in gran parte evitare di essere hackerato. A differenza della regolarizzazione KL che vincola gli aggiornamenti dei parametri, il nostro reward appreso guida direttamente il generatore attraverso i suoi output visivi, portando a immagini di qualità superiore. Inoltre, sebbene l'ottimizzazione delle funzioni di reward esistenti possa alleviare il reward hacking, i loro bias intrinseci permangono. Ad esempio, PickScore può degradare la qualità dell'immagine, mentre i reward basati su OCR spesso riducono la fedeltà estetica. Per risolvere questo problema, consideriamo l'immagine stessa come un reward, utilizzando immagini di riferimento e modelli fondazione per la visione (ad esempio, DINO) per fornire reward visivi ricchi. Questi segnali visivi densi, invece di un singolo scalare, portano a miglioramenti consistenti in termini di qualità dell'immagine, estetica e metriche specifiche del task. Infine, dimostriamo che combinare campioni di riferimento con reward basati su modelli fondazione consente il trasferimento di distribuzione e una personalizzazione stilistica flessibile. Nella valutazione umana, il nostro metodo supera Flow-GRPO e SD3, raggiungendo tassi di vittoria del 70,0% e del 72,4% rispettivamente per qualità e estetica delle immagini. Codice e modelli sono stati rilasciati.
English
A reliable reward function is essential for reinforcement learning (RL) in image generation. Most current RL approaches depend on pre-trained preference models that output scalar rewards to approximate human preferences. However, these rewards often fail to capture human perception and are vulnerable to reward hacking, where higher scores do not correspond to better images. To address this, we introduce Adv-GRPO, an RL framework with an adversarial reward that iteratively updates both the reward model and the generator. The reward model is supervised using reference images as positive samples and can largely avoid being hacked. Unlike KL regularization that constrains parameter updates, our learned reward directly guides the generator through its visual outputs, leading to higher-quality images. Moreover, while optimizing existing reward functions can alleviate reward hacking, their inherent biases remain. For instance, PickScore may degrade image quality, whereas OCR-based rewards often reduce aesthetic fidelity. To address this, we take the image itself as a reward, using reference images and vision foundation models (e.g., DINO) to provide rich visual rewards. These dense visual signals, instead of a single scalar, lead to consistent gains across image quality, aesthetics, and task-specific metrics. Finally, we show that combining reference samples with foundation-model rewards enables distribution transfer and flexible style customization. In human evaluation, our method outperforms Flow-GRPO and SD3, achieving 70.0% and 72.4% win rates in image quality and aesthetics, respectively. Code and models have been released.
PDF263December 3, 2025