ChatPaper.aiChatPaper

Het beeld als zijn eigen beloning: Reinforcement learning met adversariële beloning voor beeldgeneratie

The Image as Its Own Reward: Reinforcement Learning with Adversarial Reward for Image Generation

November 25, 2025
Auteurs: Weijia Mao, Hao Chen, Zhenheng Yang, Mike Zheng Shou
cs.AI

Samenvatting

Een betrouwbare beloningsfunctie is essentieel voor reinforcement learning (RL) bij beeldgeneratie. De meeste huidige RL-benaderingen zijn afhankelijk van vooraf getrainde voorkeursmodellen die scalaire beloningen uitvoeren om menselijke voorkeuren te benaderen. Deze beloningen slagen er echter vaak niet in de menselijke perceptie te vatten en zijn kwetsbaar voor 'reward hacking', waarbij hogere scores niet overeenkomen met betere beelden. Om dit aan te pakken, introduceren we Adv-GRPO, een RL-raamwerk met een adversariële beloning die zowel het beloningsmodel als de generator iteratief bijwerkt. Het beloningsmodel wordt gesuperviseerd met referentiebeelden als positieve voorbeelden en kan grotendeels worden beschermd tegen hacking. In tegenstelling tot KL-regularisatie die parameterupdates beperkt, leidt onze aangeleerde beloning de generator rechtstreeks via zijn visuele outputs, wat leidt tot beelden van hogere kwaliteit. Bovendien, hoewel het optimaliseren van bestaande beloningsfuncties 'reward hacking' kan verlichten, blijven hun inherente vertekeningen bestaan. PickScore kan bijvoorbeeld de beeldkwaliteit aantasten, terwijl OCR-gebaseerde beloningen vaak de esthetische trouw verminderen. Om dit aan te pakken, nemen we het beeld zelf als beloning, waarbij we referentiebeelden en vision foundation-modellen (bijv. DINO) gebruiken om rijke visuele beloningen te bieden. Deze dense visuele signalen, in plaats van een enkele scalair, leiden tot consistente verbeteringen op het gebied van beeldkwaliteit, esthetiek en taakspecifieke metrieken. Ten slotte tonen we aan dat het combineren van referentievoorbeelden met beloningen uit foundation-modellen distributieoverdracht en flexibele stijlaanpassing mogelijk maakt. In humane evaluatie presteert onze methode beter dan Flow-GRPO en SD3, met winstpercentages van respectievelijk 70,0% en 72,4% voor beeldkwaliteit en esthetiek. Code en modellen zijn vrijgegeven.
English
A reliable reward function is essential for reinforcement learning (RL) in image generation. Most current RL approaches depend on pre-trained preference models that output scalar rewards to approximate human preferences. However, these rewards often fail to capture human perception and are vulnerable to reward hacking, where higher scores do not correspond to better images. To address this, we introduce Adv-GRPO, an RL framework with an adversarial reward that iteratively updates both the reward model and the generator. The reward model is supervised using reference images as positive samples and can largely avoid being hacked. Unlike KL regularization that constrains parameter updates, our learned reward directly guides the generator through its visual outputs, leading to higher-quality images. Moreover, while optimizing existing reward functions can alleviate reward hacking, their inherent biases remain. For instance, PickScore may degrade image quality, whereas OCR-based rewards often reduce aesthetic fidelity. To address this, we take the image itself as a reward, using reference images and vision foundation models (e.g., DINO) to provide rich visual rewards. These dense visual signals, instead of a single scalar, lead to consistent gains across image quality, aesthetics, and task-specific metrics. Finally, we show that combining reference samples with foundation-model rewards enables distribution transfer and flexible style customization. In human evaluation, our method outperforms Flow-GRPO and SD3, achieving 70.0% and 72.4% win rates in image quality and aesthetics, respectively. Code and models have been released.
PDF263December 3, 2025