GARDO: Reforzando Modelos de Difusión sin Explotación de Recompensas
GARDO: Reinforcing Diffusion Models without Reward Hacking
December 30, 2025
Autores: Haoran He, Yuxiao Ye, Jie Liu, Jiajun Liang, Zhiyong Wang, Ziyang Yuan, Xintao Wang, Hangyu Mao, Pengfei Wan, Ling Pan
cs.AI
Resumen
El ajuste fino de modelos de difusión mediante aprendizaje por refuerzo (RL) en línea ha demostrado un gran potencial para mejorar la alineación texto-imagen. Sin embargo, dado que especificar con precisión un objetivo de verdad fundamental para tareas visuales sigue siendo un desafío, los modelos a menudo se optimizan utilizando una recompensa proxy que solo captura parcialmente el objetivo real. Esta discrepancia a menudo conduce a la explotación de la recompensa (reward hacking), donde las puntuaciones proxy aumentan mientras la calidad real de la imagen se deteriora y la diversidad de la generación colapsa. Si bien las soluciones comunes añaden una regularización contra la política de referencia para prevenir la explotación de la recompensa, éstas comprometen la eficiencia muestral e impiden la exploración de regiones novedosas y de alta recompensa, ya que la política de referencia suele ser subóptima. Para abordar las demandas en competencia de eficiencia muestral, exploración efectiva y mitigación de la explotación de la recompensa, proponemos GARDO (Optimización con Regularización Ponderada y Adaptativa y Conciencia de la Diversidad), un marco versátil compatible con varios algoritmos de RL. Nuestra idea clave es que la regularización no necesita aplicarse universalmente; en cambio, es altamente efectivo penalizar selectivamente un subconjunto de muestras que exhiben alta incertidumbre. Para abordar el desafío de la exploración, GARDO introduce un mecanismo de regularización adaptativa en el cual el modelo de referencia se actualiza periódicamente para igualar las capacidades de la política en línea, asegurando un objetivo de regularización relevante. Para abordar el problema del colapso modal en RL, GARDO amplifica las recompensas para muestras de alta calidad que también exhiben alta diversidad, fomentando la cobertura de modos sin desestabilizar el proceso de optimización. Experimentos exhaustivos con diversas recompensas proxy y métricas de evaluación no vistas (hold-out) muestran consistentemente que GARDO mitiga la explotación de la recompensa y mejora la diversidad de la generación sin sacrificar la eficiencia muestral o la exploración, destacando su efectividad y robustez.
English
Fine-tuning diffusion models via online reinforcement learning (RL) has shown great potential for enhancing text-to-image alignment. However, since precisely specifying a ground-truth objective for visual tasks remains challenging, the models are often optimized using a proxy reward that only partially captures the true goal. This mismatch often leads to reward hacking, where proxy scores increase while real image quality deteriorates and generation diversity collapses. While common solutions add regularization against the reference policy to prevent reward hacking, they compromise sample efficiency and impede the exploration of novel, high-reward regions, as the reference policy is usually sub-optimal. To address the competing demands of sample efficiency, effective exploration, and mitigation of reward hacking, we propose Gated and Adaptive Regularization with Diversity-aware Optimization (GARDO), a versatile framework compatible with various RL algorithms. Our key insight is that regularization need not be applied universally; instead, it is highly effective to selectively penalize a subset of samples that exhibit high uncertainty. To address the exploration challenge, GARDO introduces an adaptive regularization mechanism wherein the reference model is periodically updated to match the capabilities of the online policy, ensuring a relevant regularization target. To address the mode collapse issue in RL, GARDO amplifies the rewards for high-quality samples that also exhibit high diversity, encouraging mode coverage without destabilizing the optimization process. Extensive experiments across diverse proxy rewards and hold-out unseen metrics consistently show that GARDO mitigates reward hacking and enhances generation diversity without sacrificing sample efficiency or exploration, highlighting its effectiveness and robustness.