GARDO: Rafforzare i Modelli di Diffusione senza Reward Hacking
GARDO: Reinforcing Diffusion Models without Reward Hacking
December 30, 2025
Autori: Haoran He, Yuxiao Ye, Jie Liu, Jiajun Liang, Zhiyong Wang, Ziyang Yuan, Xintao Wang, Hangyu Mao, Pengfei Wan, Ling Pan
cs.AI
Abstract
L'ottimizzazione fine (fine-tuning) di modelli di diffusione tramite apprendimento per rinforzo (RL) online ha dimostrato un grande potenziale nel migliorare l'allineamento testo-immagine. Tuttavia, poiché specificare con precisione un obiettivo di ground-truth per compiti visivi rimane complesso, i modelli vengono spesso ottimizzati utilizzando una ricompensa proxy che cattura solo parzialmente l'obiettivo vero. Questo disallineamento porta spesso a un fenomeno di "reward hacking", in cui i punteggi proxy aumentano mentre la qualità reale dell'immagine si deteriora e la diversità della generazione collassa. Sebbene le soluzioni comuni aggiungano una regolarizzazione rispetto alla politica di riferimento per prevenire il reward hacking, esse compromettono l'efficienza campionaria e impediscono l'esplorazione di regioni nuove ad alta ricompensa, poiché la politica di riferimento è solitamente sub-ottimale.
Per affrontare le esigenze contrastanti di efficienza campionaria, esplorazione efficace e mitigazione del reward hacking, proponiamo GARDO (Gated and Adaptive Regularization with Diversity-aware Optimization), un framework versatile compatibile con vari algoritmi di RL. La nostra intuizione chiave è che la regolarizzazione non debba essere applicata universalmente; è invece molto efficace penalizzare selettivamente un sottoinsieme di campioni che presentano un'elevata incertezza. Per affrontare la sfida esplorativa, GARDO introduce un meccanismo di regolarizzazione adattiva in cui il modello di riferimento viene aggiornato periodicamente per allinearsi alle capacità della politica online, garantendo un obiettivo di regolarizzazione rilevante. Per affrontare il problema del collasso modale (mode collapse) nell'RL, GARDO amplifica le ricompense per campioni di alta qualità che mostrano anche un'elevata diversità, incoraggiando la copertura modale senza destabilizzare il processo di ottimizzazione.
Esperimenti estesi su diverse ricompense proxy e metriche di hold-out non viste mostrano costantemente che GARDO mitiga il reward hacking e migliora la diversità della generazione senza sacrificare l'efficienza campionaria o l'esplorazione, evidenziandone l'efficacia e la robustezza.
English
Fine-tuning diffusion models via online reinforcement learning (RL) has shown great potential for enhancing text-to-image alignment. However, since precisely specifying a ground-truth objective for visual tasks remains challenging, the models are often optimized using a proxy reward that only partially captures the true goal. This mismatch often leads to reward hacking, where proxy scores increase while real image quality deteriorates and generation diversity collapses. While common solutions add regularization against the reference policy to prevent reward hacking, they compromise sample efficiency and impede the exploration of novel, high-reward regions, as the reference policy is usually sub-optimal. To address the competing demands of sample efficiency, effective exploration, and mitigation of reward hacking, we propose Gated and Adaptive Regularization with Diversity-aware Optimization (GARDO), a versatile framework compatible with various RL algorithms. Our key insight is that regularization need not be applied universally; instead, it is highly effective to selectively penalize a subset of samples that exhibit high uncertainty. To address the exploration challenge, GARDO introduces an adaptive regularization mechanism wherein the reference model is periodically updated to match the capabilities of the online policy, ensuring a relevant regularization target. To address the mode collapse issue in RL, GARDO amplifies the rewards for high-quality samples that also exhibit high diversity, encouraging mode coverage without destabilizing the optimization process. Extensive experiments across diverse proxy rewards and hold-out unseen metrics consistently show that GARDO mitigates reward hacking and enhances generation diversity without sacrificing sample efficiency or exploration, highlighting its effectiveness and robustness.