GARDO: Verstärkung von Diffusionsmodellen ohne Reward Hacking
GARDO: Reinforcing Diffusion Models without Reward Hacking
December 30, 2025
papers.authors: Haoran He, Yuxiao Ye, Jie Liu, Jiajun Liang, Zhiyong Wang, Ziyang Yuan, Xintao Wang, Hangyu Mao, Pengfei Wan, Ling Pan
cs.AI
papers.abstract
Das Feinabstimmen von Diffusionsmodellen mittels Online-Reinforcement Learning (RL) hat großes Potenzial zur Verbesserung der Text-Bild-Übereinstimmung gezeigt. Da die präzise Spezifikation eines Ground-Truth-Ziels für visuelle Aufgaben jedoch nach wie vor schwierig ist, werden die Modelle oft mit einem Proxy-Reward optimiert, der das eigentliche Ziel nur teilweise erfasst. Diese Diskrepanz führt häufig zu Reward Hacking, bei dem die Proxy-Scores steigen, während die tatsächliche Bildqualität abnimmt und die Generierungsvielfalt zusammenbricht. Während gängige Lösungen Regularisierung gegen die Referenzpolitik hinzufügen, um Reward Hacking zu verhindern, beeinträchtigen diese die Stichprobeneffizienz und erschweren die Exploration neuartiger, hochbelohnter Regionen, da die Referenzpolitik meist suboptimal ist.
Um den konkurrierenden Anforderungen an Stichprobeneffizienz, effektive Exploration und die Minderung von Reward Hacking gerecht zu werden, schlagen wir Gated and Adaptive Regularization with Diversity-aware Optimization (GARDO) vor, einen vielseitigen Rahmen, der mit verschiedenen RL-Algorithmen kompatibel ist. Unsere zentrale Erkenntnis ist, dass Regularisierung nicht universell angewendet werden muss; stattdessen ist es äußerst effektiv, eine Teilmenge von Stichproben mit hoher Unsicherheit selektiv zu bestrafen. Um die Explorationsherausforderung zu adressieren, führt GARDO einen adaptiven Regularisierungsmechanismus ein, bei dem das Referenzmodell regelmäßig aktualisiert wird, um die Fähigkeiten der Online-Politik abzubilden, und so ein relevantes Regularisierungsziel sicherstellt. Um das Problem des Modus-Zusammenbruchs in RL anzugehen, verstärkt GARDO die Belohnungen für hochwertige Stichproben, die ebenfalls eine hohe Diversität aufweisen, und fördert so die Modus-Abdeckung, ohne den Optimierungsprozess zu destabilisieren. Umfangreiche Experimente mit verschiedenen Proxy-Rewards und zurückgehaltenen, unbekannten Metriken zeigen konsistent, dass GARDO Reward Hacking mindert und die Generierungsvielfalt steigert, ohne Stichprobeneffizienz oder Exploration zu opfern, was seine Wirksamkeit und Robustheit unterstreicht.
English
Fine-tuning diffusion models via online reinforcement learning (RL) has shown great potential for enhancing text-to-image alignment. However, since precisely specifying a ground-truth objective for visual tasks remains challenging, the models are often optimized using a proxy reward that only partially captures the true goal. This mismatch often leads to reward hacking, where proxy scores increase while real image quality deteriorates and generation diversity collapses. While common solutions add regularization against the reference policy to prevent reward hacking, they compromise sample efficiency and impede the exploration of novel, high-reward regions, as the reference policy is usually sub-optimal. To address the competing demands of sample efficiency, effective exploration, and mitigation of reward hacking, we propose Gated and Adaptive Regularization with Diversity-aware Optimization (GARDO), a versatile framework compatible with various RL algorithms. Our key insight is that regularization need not be applied universally; instead, it is highly effective to selectively penalize a subset of samples that exhibit high uncertainty. To address the exploration challenge, GARDO introduces an adaptive regularization mechanism wherein the reference model is periodically updated to match the capabilities of the online policy, ensuring a relevant regularization target. To address the mode collapse issue in RL, GARDO amplifies the rewards for high-quality samples that also exhibit high diversity, encouraging mode coverage without destabilizing the optimization process. Extensive experiments across diverse proxy rewards and hold-out unseen metrics consistently show that GARDO mitigates reward hacking and enhances generation diversity without sacrificing sample efficiency or exploration, highlighting its effectiveness and robustness.