ChatPaper.aiChatPaper

Das Bild als eigene Belohnung: Bestärkendes Lernen mit adversariellen Belohnungen für die Bildgenerierung

The Image as Its Own Reward: Reinforcement Learning with Adversarial Reward for Image Generation

November 25, 2025
papers.authors: Weijia Mao, Hao Chen, Zhenheng Yang, Mike Zheng Shou
cs.AI

papers.abstract

Eine zuverlässige Belohnungsfunktion ist für Reinforcement Learning (RL) in der Bildgenerierung unerlässlich. Die meisten aktuellen RL-Ansätze verlassen sich auf vortrainierte Präferenzmodelle, die skalare Belohnungen zur Approximation menschlicher Präferenzen ausgeben. Diese Belohnungen erfassen jedoch oft nicht die menschliche Wahrnehmung und sind anfällig für Reward Hacking, bei dem höhere Scores nicht mit besseren Bildern korrelieren. Um dies zu adressieren, führen wir Adv-GRPO ein, einen RL-Rahmen mit einer adversariellen Belohnung, der sowohl das Belohnungsmodell als auch den Generator iterativ aktualisiert. Das Belohnungsmodell wird unter Verwendung von Referenzbildern als positive Beispiele supervidiert und kann dadurch weitgehend vor Manipulation geschützt werden. Im Gegensatz zur KL-Regularisierung, die Parameterupdates einschränkt, leitet unsere gelernte Belohnung den Generator direkt über seine visuellen Ausgaben an, was zu hochwertigeren Bildern führt. Darüber hinaus bleiben, obwohl die Optimierung bestehender Belohnungsfunktionen Reward Hacking mildern kann, deren inhärente Verzerrungen bestehen. Beispielsweise kann PickScore die Bildqualität verschlechtern, während OCR-basierte Belohnungen oft die ästhetische Treue reduzieren. Um dies zu adressieren, behandeln wir das Bild selbst als Belohnung und nutzen Referenzbilder sowie Vision-Foundation-Modelle (z.B. DINO), um umfangreiche visuelle Belohnungen bereitzustellen. Diese dichten visuellen Signale anstelle eines einzelnen Skalars führen zu konsistenten Verbesserungen bei Bildqualität, Ästhetik und aufgabenspezifischen Metriken. Schließlich zeigen wir, dass die Kombination von Referenzbeispielen mit Foundation-Model-Belohnungen Verteilungsübertragung und flexible Stilanpassung ermöglicht. In der menschlichen Bewertung übertrifft unsere Methode Flow-GRPO und SD3 mit Gewinnraten von 70,0 % bzw. 72,4 % bei Bildqualität und Ästhetik. Code und Modelle wurden veröffentlicht.
English
A reliable reward function is essential for reinforcement learning (RL) in image generation. Most current RL approaches depend on pre-trained preference models that output scalar rewards to approximate human preferences. However, these rewards often fail to capture human perception and are vulnerable to reward hacking, where higher scores do not correspond to better images. To address this, we introduce Adv-GRPO, an RL framework with an adversarial reward that iteratively updates both the reward model and the generator. The reward model is supervised using reference images as positive samples and can largely avoid being hacked. Unlike KL regularization that constrains parameter updates, our learned reward directly guides the generator through its visual outputs, leading to higher-quality images. Moreover, while optimizing existing reward functions can alleviate reward hacking, their inherent biases remain. For instance, PickScore may degrade image quality, whereas OCR-based rewards often reduce aesthetic fidelity. To address this, we take the image itself as a reward, using reference images and vision foundation models (e.g., DINO) to provide rich visual rewards. These dense visual signals, instead of a single scalar, lead to consistent gains across image quality, aesthetics, and task-specific metrics. Finally, we show that combining reference samples with foundation-model rewards enables distribution transfer and flexible style customization. In human evaluation, our method outperforms Flow-GRPO and SD3, achieving 70.0% and 72.4% win rates in image quality and aesthetics, respectively. Code and models have been released.
PDF283February 7, 2026