GARDO : Renforcer les modèles de diffusion sans tricherie par récompense
GARDO: Reinforcing Diffusion Models without Reward Hacking
December 30, 2025
papers.authors: Haoran He, Yuxiao Ye, Jie Liu, Jiajun Liang, Zhiyong Wang, Ziyang Yuan, Xintao Wang, Hangyu Mao, Pengfei Wan, Ling Pan
cs.AI
papers.abstract
Le réglage fin des modèles de diffusion par apprentissage par renforcement (RL) en ligne a démontré un grand potentiel pour améliorer l'alignement texte-image. Cependant, la spécification précise d'un objectif de vérité terrain pour les tâches visuelles restant difficile, les modèles sont souvent optimisés à l'aide d'une récompense proxy qui ne capture qu'en partie le véritable objectif. Cette inadéquation conduit souvent à du détournement de récompense (reward hacking), où les scores proxy augmentent tandis que la qualité réelle de l'image se dégrade et que la diversité des générations s'effondre. Si les solutions courantes ajoutent une régularisation par rapport à la politique de référence pour prévenir ce détournement, elles compromettent l'efficacité de l'échantillonnage et entravent l'exploration de nouvelles régions à haute récompense, la politique de référence étant généralement sous-optimale.
Pour répondre aux exigences concurrentes d'efficacité de l'échantillonnage, d'exploration efficace et d'atténuation du détournement de récompense, nous proposons GARDO (Gated and Adaptive Regularization with Diversity-aware Optimization), un cadre versatile compatible avec divers algorithmes de RL. Notre idée clé est que la régularisation n'a pas besoin d'être appliquée universellement ; il est au contraire très efficace de pénaliser sélectivement un sous-ensemble d'échantillons présentant une forte incertitude. Pour relever le défi de l'exploration, GARDO introduit un mécanisme de régularisation adaptative dans lequel le modèle de référence est mis à jour périodiquement pour correspondre aux capacités de la politique en ligne, garantissant ainsi une cible de régularisation pertinente. Pour résoudre le problème de l'effondrement des modes (mode collapse) en RL, GARDO amplifie les récompenses pour les échantillons de haute qualité qui présentent également une grande diversité, encourageant ainsi la couverture des modes sans déstabiliser le processus d'optimisation.
Des expériences approfondies, menées sur diverses récompenses proxy et métriques de validation non vues, montrent systématiquement que GARDO atténue le détournement de récompense et améliore la diversité des générations sans sacrifier l'efficacité de l'échantillonnage ni l'exploration, soulignant ainsi son efficacité et sa robustesse.
English
Fine-tuning diffusion models via online reinforcement learning (RL) has shown great potential for enhancing text-to-image alignment. However, since precisely specifying a ground-truth objective for visual tasks remains challenging, the models are often optimized using a proxy reward that only partially captures the true goal. This mismatch often leads to reward hacking, where proxy scores increase while real image quality deteriorates and generation diversity collapses. While common solutions add regularization against the reference policy to prevent reward hacking, they compromise sample efficiency and impede the exploration of novel, high-reward regions, as the reference policy is usually sub-optimal. To address the competing demands of sample efficiency, effective exploration, and mitigation of reward hacking, we propose Gated and Adaptive Regularization with Diversity-aware Optimization (GARDO), a versatile framework compatible with various RL algorithms. Our key insight is that regularization need not be applied universally; instead, it is highly effective to selectively penalize a subset of samples that exhibit high uncertainty. To address the exploration challenge, GARDO introduces an adaptive regularization mechanism wherein the reference model is periodically updated to match the capabilities of the online policy, ensuring a relevant regularization target. To address the mode collapse issue in RL, GARDO amplifies the rewards for high-quality samples that also exhibit high diversity, encouraging mode coverage without destabilizing the optimization process. Extensive experiments across diverse proxy rewards and hold-out unseen metrics consistently show that GARDO mitigates reward hacking and enhances generation diversity without sacrificing sample efficiency or exploration, highlighting its effectiveness and robustness.