ChatPaper.aiChatPaper

GARDO:報酬ハッキングなしで拡散モデルを強化する

GARDO: Reinforcing Diffusion Models without Reward Hacking

December 30, 2025
著者: Haoran He, Yuxiao Ye, Jie Liu, Jiajun Liang, Zhiyong Wang, Ziyang Yuan, Xintao Wang, Hangyu Mao, Pengfei Wan, Ling Pan
cs.AI

要旨

拡散モデルのオンライン強化学習(RL)によるファインチューニングは、テキストと画像の整合性を高める上で大きな可能性を示している。しかし、視覚タスクにおける真の目的を厳密に特定することが依然として困難なため、モデルは真の目標を部分的にしか反映しない代理報酬を用いて最適化されることが多い。この不一致は、代理スコアが上昇する一方で実際の画像品質が劣化し、生成多様性が崩壊する「報酬ハッキング」を引き起こしやすい。一般的な解決策は、参照ポリシーに対する正則化を追加して報酬ハッキングを防ぐものだが、参照ポリシーは通常最適ではないため、サンプル効率が損なわれ、新たな高報酬領域の探索が阻害される。サンプル効率、効果的な探索、報酬ハッキングの緩和という競合する要求を同時に満たすため、我々は多様RLアルゴリズムと互換性のある汎用フレームワーク「Gated and Adaptive Regularization with Diversity-aware Optimization(GARDO)」を提案する。重要な洞察は、正則化を一律に適用する必要はなく、不確実性の高いサンプルの一部を選択的にペナルティ化することが極めて有効であるという点である。探索課題に対処するため、GARDOは参照モデルをオンラインポリシーの能力に合わせて定期的に更新する適応的正則化機構を導入し、関連性の高い正則化ターゲットを確保する。RLにおけるモード崩壊問題に対処するため、GARDOは高品質かつ多様性の高いサンプルへの報酬を増幅し、最適化プロセスを不安定にすることなくモードカバレッジを促進する。多様な代理報酬と未見メトリクスを用いた大規模実験により、GARDOがサンプル効率や探索を犠牲にすることなく報酬ハッキングを緩和し、生成多様性を向上させることを一貫して実証し、その有効性と頑健性を明らかにした。
English
Fine-tuning diffusion models via online reinforcement learning (RL) has shown great potential for enhancing text-to-image alignment. However, since precisely specifying a ground-truth objective for visual tasks remains challenging, the models are often optimized using a proxy reward that only partially captures the true goal. This mismatch often leads to reward hacking, where proxy scores increase while real image quality deteriorates and generation diversity collapses. While common solutions add regularization against the reference policy to prevent reward hacking, they compromise sample efficiency and impede the exploration of novel, high-reward regions, as the reference policy is usually sub-optimal. To address the competing demands of sample efficiency, effective exploration, and mitigation of reward hacking, we propose Gated and Adaptive Regularization with Diversity-aware Optimization (GARDO), a versatile framework compatible with various RL algorithms. Our key insight is that regularization need not be applied universally; instead, it is highly effective to selectively penalize a subset of samples that exhibit high uncertainty. To address the exploration challenge, GARDO introduces an adaptive regularization mechanism wherein the reference model is periodically updated to match the capabilities of the online policy, ensuring a relevant regularization target. To address the mode collapse issue in RL, GARDO amplifies the rewards for high-quality samples that also exhibit high diversity, encouraging mode coverage without destabilizing the optimization process. Extensive experiments across diverse proxy rewards and hold-out unseen metrics consistently show that GARDO mitigates reward hacking and enhances generation diversity without sacrificing sample efficiency or exploration, highlighting its effectiveness and robustness.
PDF232January 7, 2026