ChatPaper.aiChatPaper

画像を自らの報酬として:敵対的報酬による強化学習を用いた画像生成

The Image as Its Own Reward: Reinforcement Learning with Adversarial Reward for Image Generation

November 25, 2025
著者: Weijia Mao, Hao Chen, Zhenheng Yang, Mike Zheng Shou
cs.AI

要旨

信頼性の高い報酬関数は、画像生成における強化学習(RL)に不可欠です。現在のRL手法の多くは、人間の選好を近似するスカラー報酬を出力する事前学習済み選好モデルに依存しています。しかし、これらの報酬は人間の知覚を十分に捉えられず、報酬ハッキングに対して脆弱です。報酬ハッキングでは、高いスコアが必ずしも優れた画像に対応しません。この問題に対処するため、我々は敵対的報酬を用いたRLフレームワークであるAdv-GRPOを提案します。このフレームワークでは、報酬モデルと生成器の両方を反復的に更新します。報酬モデルは参照画像を正例として教師あり学習され、報酬ハッキングを大幅に回避できます。パラメータ更新を制約するKL正則化とは異なり、我々の学習済み報酬は視覚的出力を通じて生成器を直接誘導し、高品質な画像生成を実現します。また、既存の報酬関数を最適化することで報酬ハッキングを緩和できますが、根本的なバイアスは残存します。例えば、PickScoreは画像品質を劣化させることがあり、OCRベースの報酬は審美性を損ないがちです。この課題に対し、我々は画像自体を報酬として扱い、参照画像と視覚基盤モデル(例:DINO)を用いて豊富な視覚的報酬を提供します。単一のスカラー値ではなく、これらの密な視覚信号により、画像品質、審美性、タスク固有指標において一貫した改善が得られます。最後に、参照サンプルと基盤モデル報酬を組み合わせることで、分布変換と柔軟なスタイルカスタマイズが可能となることを示します。人間評価では、本手法はFlow-GRPOおよびSD3を上回り、画像品質と審美性においてそれぞれ70.0%、72.4%の勝率を達成しました。コードとモデルは公開済みです。
English
A reliable reward function is essential for reinforcement learning (RL) in image generation. Most current RL approaches depend on pre-trained preference models that output scalar rewards to approximate human preferences. However, these rewards often fail to capture human perception and are vulnerable to reward hacking, where higher scores do not correspond to better images. To address this, we introduce Adv-GRPO, an RL framework with an adversarial reward that iteratively updates both the reward model and the generator. The reward model is supervised using reference images as positive samples and can largely avoid being hacked. Unlike KL regularization that constrains parameter updates, our learned reward directly guides the generator through its visual outputs, leading to higher-quality images. Moreover, while optimizing existing reward functions can alleviate reward hacking, their inherent biases remain. For instance, PickScore may degrade image quality, whereas OCR-based rewards often reduce aesthetic fidelity. To address this, we take the image itself as a reward, using reference images and vision foundation models (e.g., DINO) to provide rich visual rewards. These dense visual signals, instead of a single scalar, lead to consistent gains across image quality, aesthetics, and task-specific metrics. Finally, we show that combining reference samples with foundation-model rewards enables distribution transfer and flexible style customization. In human evaluation, our method outperforms Flow-GRPO and SD3, achieving 70.0% and 72.4% win rates in image quality and aesthetics, respectively. Code and models have been released.
PDF283February 7, 2026