GARDO: Reforçando Modelos de Difusão sem Manipulação de Recompensa
GARDO: Reinforcing Diffusion Models without Reward Hacking
December 30, 2025
Autores: Haoran He, Yuxiao Ye, Jie Liu, Jiajun Liang, Zhiyong Wang, Ziyang Yuan, Xintao Wang, Hangyu Mao, Pengfei Wan, Ling Pan
cs.AI
Resumo
O ajuste fino de modelos de difusão através de aprendizagem por reforço (RL) online tem demonstrado grande potencial para melhorar o alinhamento texto-imagem. No entanto, como a especificação precisa de um objetivo de verdade fundamental (ground-truth) para tarefas visuais permanece um desafio, os modelos são frequentemente otimizados usando uma recompensa proxy que apenas captura parcialmente o objetivo real. Esta incompatibilidade frequentemente leva a *reward hacking* (hackeamento da recompensa), onde as pontuações proxy aumentam enquanto a qualidade real da imagem se deteriora e a diversidade da geração entra em colapso. Embora as soluções comuns adicionem regularização contra a política de referência para prevenir o *reward hacking*, elas comprometem a eficiência amostral e impedem a exploração de regiões novas e de alta recompensa, uma vez que a política de referência é geralmente subótima.
Para abordar as demandas concorrentes de eficiência amostral, exploração eficaz e mitigação do *reward hacking*, propomos o GARDO (*Gated and Adaptive Regularization with Diversity-aware Optimization*), uma estrutura versátil compatível com vários algoritmos de RL. Nossa principal perceção é que a regularização não precisa ser aplicada universalmente; em vez disso, é altamente eficaz penalizar seletivamente um subconjunto de amostras que exibem alta incerteza. Para enfrentar o desafio da exploração, o GARDO introduz um mecanismo de regularização adaptativa no qual o modelo de referência é atualizado periodicamente para corresponder às capacidades da política online, garantindo um alvo de regularização relevante. Para resolver o problema do colapso modal (*mode collapse*) no RL, o GARDO amplifica as recompensas para amostras de alta qualidade que também exibem alta diversidade, incentivando a cobertura de modos sem desestabilizar o processo de otimização.
Extensos experimentos com diversas recompensas proxy e métricas de avaliação não vistas (*hold-out*) mostram consistentemente que o GARDO mitiga o *reward hacking* e aumenta a diversidade da geração sem sacrificar a eficiência amostral ou a exploração, destacando a sua eficácia e robustez.
English
Fine-tuning diffusion models via online reinforcement learning (RL) has shown great potential for enhancing text-to-image alignment. However, since precisely specifying a ground-truth objective for visual tasks remains challenging, the models are often optimized using a proxy reward that only partially captures the true goal. This mismatch often leads to reward hacking, where proxy scores increase while real image quality deteriorates and generation diversity collapses. While common solutions add regularization against the reference policy to prevent reward hacking, they compromise sample efficiency and impede the exploration of novel, high-reward regions, as the reference policy is usually sub-optimal. To address the competing demands of sample efficiency, effective exploration, and mitigation of reward hacking, we propose Gated and Adaptive Regularization with Diversity-aware Optimization (GARDO), a versatile framework compatible with various RL algorithms. Our key insight is that regularization need not be applied universally; instead, it is highly effective to selectively penalize a subset of samples that exhibit high uncertainty. To address the exploration challenge, GARDO introduces an adaptive regularization mechanism wherein the reference model is periodically updated to match the capabilities of the online policy, ensuring a relevant regularization target. To address the mode collapse issue in RL, GARDO amplifies the rewards for high-quality samples that also exhibit high diversity, encouraging mode coverage without destabilizing the optimization process. Extensive experiments across diverse proxy rewards and hold-out unseen metrics consistently show that GARDO mitigates reward hacking and enhances generation diversity without sacrificing sample efficiency or exploration, highlighting its effectiveness and robustness.