ChatPaper.aiChatPaper

GARDO: Versterking van diffusiemodellen zonder beloningsmanipulatie

GARDO: Reinforcing Diffusion Models without Reward Hacking

December 30, 2025
Auteurs: Haoran He, Yuxiao Ye, Jie Liu, Jiajun Liang, Zhiyong Wang, Ziyang Yuan, Xintao Wang, Hangyu Mao, Pengfei Wan, Ling Pan
cs.AI

Samenvatting

Het finetunen van diffusiemodellen via online reinforcement learning (RL) heeft groot potentieel getoond voor het verbeteren van tekst-naar-beeld-afstemming. Omdat het echter een uitdaging blijft om een grondwaarheid-doelstelling voor visuele taken precies te specificeren, worden de modellen vaak geoptimaliseerd met behulp van een proxy-beloning die het werkelijke doel slechts gedeeltelijk weergeeft. Deze mismatch leidt vaak tot reward hacking, waarbij proxy-scores stijgen terwijl de werkelijke beeldkwaliteit verslechtert en de generatiediversiteit ineenstort. Hoewel gebruikelijke oplossingen regularisatie toevoegen ten opzichte van het referentiebeleid om reward hacking te voorkomen, gaan deze ten koste van de steekproefefficiëntie en belemmeren ze de verkenning van nieuwe, hoogbeloonde regio's, aangezien het referentiebeleid meestal suboptimaal is. Om aan de concurrerende eisen van steekproefefficiëntie, effectieve verkenning en beperking van reward hacking te voldoen, stellen we Gated and Adaptive Regularization with Diversity-aware Optimization (GARDO) voor, een veelzijdig raamwerk dat compatibel is met verschillende RL-algoritmen. Onze belangrijkste inzicht is dat regularisatie niet universeel toegepast hoeft te worden; in plaats daarvan is het zeer effectief om selectief een subset van steekproeven te bestraffen die een hoge onzekerheid vertonen. Om de verkenninguitdaging aan te pakken, introduceert GARDO een adaptief regularisatiemechanisme waarbij het referentiemodel periodiek wordt bijgewerkt om aan te sluiten bij de capaciteiten van het online beleid, zodat een relevant regularisatiedoel wordt gegarandeerd. Om het mode collapse-probleem in RL aan te pakken, versterkt GARDO de beloningen voor hoogwaardige steekproeven die ook een hoge diversiteit vertonen, waardoor mode coverage wordt aangemoedigd zonder het optimalisatieproces te destabiliseren. Uitgebreide experimenten met diverse proxy-beloningen en onafhankelijke, ongeziene metrieken tonen consistent aan dat GARDO reward hacking beperkt en de generatiediversiteit verbetert zonder in te leveren op steekproefefficiëntie of verkenning, wat de effectiviteit en robuustheid ervan onderstreept.
English
Fine-tuning diffusion models via online reinforcement learning (RL) has shown great potential for enhancing text-to-image alignment. However, since precisely specifying a ground-truth objective for visual tasks remains challenging, the models are often optimized using a proxy reward that only partially captures the true goal. This mismatch often leads to reward hacking, where proxy scores increase while real image quality deteriorates and generation diversity collapses. While common solutions add regularization against the reference policy to prevent reward hacking, they compromise sample efficiency and impede the exploration of novel, high-reward regions, as the reference policy is usually sub-optimal. To address the competing demands of sample efficiency, effective exploration, and mitigation of reward hacking, we propose Gated and Adaptive Regularization with Diversity-aware Optimization (GARDO), a versatile framework compatible with various RL algorithms. Our key insight is that regularization need not be applied universally; instead, it is highly effective to selectively penalize a subset of samples that exhibit high uncertainty. To address the exploration challenge, GARDO introduces an adaptive regularization mechanism wherein the reference model is periodically updated to match the capabilities of the online policy, ensuring a relevant regularization target. To address the mode collapse issue in RL, GARDO amplifies the rewards for high-quality samples that also exhibit high diversity, encouraging mode coverage without destabilizing the optimization process. Extensive experiments across diverse proxy rewards and hold-out unseen metrics consistently show that GARDO mitigates reward hacking and enhances generation diversity without sacrificing sample efficiency or exploration, highlighting its effectiveness and robustness.
PDF232January 7, 2026