ChatPaper.aiChatPaper

GARDO: 보상 해킹 없이 확산 모델 강화하기

GARDO: Reinforcing Diffusion Models without Reward Hacking

December 30, 2025
저자: Haoran He, Yuxiao Ye, Jie Liu, Jiajun Liang, Zhiyong Wang, Ziyang Yuan, Xintao Wang, Hangyu Mao, Pengfei Wan, Ling Pan
cs.AI

초록

온라인 강화학습(RL)을 통한 확산 모델의 미세 조정은 텍스트-이미지 정렬 향상에 큰 가능성을 보여주고 있습니다. 그러나 시각적 작업에 대한 정확한 실측 목표를 명시하는 것은 여전히 어려운 과제이기 때문에, 모델은 종종 실제 목표를 부분적으로만 반영하는 프록시 보상으로 최적화됩니다. 이러한 불일치는 종종 프록시 점수는 상승하는 반면 실제 이미지 품질이 저하되고 생성 다양성이 붕괴되는 보상 해킹으로 이어집니다. 보상 해킹을 방지하기 위한 일반적인 해결책은 참조 정책에 대한 정규화를 추가하지만, 참조 정책이 일반적으로 차선책이기 때문에 샘플 효율성을 저해하고 새로운 고보상 영역의 탐색을 방해합니다. 샘플 효율성, 효과적 탐색, 보상 해킹 완화라는 상충되는 요구를 해결하기 위해 우리는 다양한 RL 알고리즘과 호환되는 다목적 프레임워크인 GARDO(Gated and Adaptive Regularization with Diversity-aware Optimization)를 제안합니다. 우리의 핵심 통찰은 정규화를 반드시 보편적으로 적용할 필요가 없으며, 높은 불확실성을 보이는 샘플의 일부를 선택적으로 패널티 부여하는 것이 매우 효과적이라는 점입니다. 탐색 과제를 해결하기 위해 GARDO는 참조 모델을 온라인 정책의 능력에 맞춰 주기적으로 업데이트하여 관련성 있는 정규화 목표를 보장하는 적응형 정규화 메커니즘을 도입합니다. RL의 모드 붕괴 문제를 해결하기 위해 GARDO는 높은 다양성을 보이는 고품질 샘플에 대한 보상을 증폭하여 최적화 과정을 불안정하게 만들지 않으면서 모드 커버리지를 촉진합니다. 다양한 프록시 보상과 보유(unseen) 평가 지표에 걸친 광범위한 실험을 통해 GARDO가 샘플 효율성이나 탐색을 희생하지 않으면서 보상 해킹을 완화하고 생성 다양성을 향상시킨다는 것을 일관되게 입증하며, 그 효과성과 강건성을 부각합니다.
English
Fine-tuning diffusion models via online reinforcement learning (RL) has shown great potential for enhancing text-to-image alignment. However, since precisely specifying a ground-truth objective for visual tasks remains challenging, the models are often optimized using a proxy reward that only partially captures the true goal. This mismatch often leads to reward hacking, where proxy scores increase while real image quality deteriorates and generation diversity collapses. While common solutions add regularization against the reference policy to prevent reward hacking, they compromise sample efficiency and impede the exploration of novel, high-reward regions, as the reference policy is usually sub-optimal. To address the competing demands of sample efficiency, effective exploration, and mitigation of reward hacking, we propose Gated and Adaptive Regularization with Diversity-aware Optimization (GARDO), a versatile framework compatible with various RL algorithms. Our key insight is that regularization need not be applied universally; instead, it is highly effective to selectively penalize a subset of samples that exhibit high uncertainty. To address the exploration challenge, GARDO introduces an adaptive regularization mechanism wherein the reference model is periodically updated to match the capabilities of the online policy, ensuring a relevant regularization target. To address the mode collapse issue in RL, GARDO amplifies the rewards for high-quality samples that also exhibit high diversity, encouraging mode coverage without destabilizing the optimization process. Extensive experiments across diverse proxy rewards and hold-out unseen metrics consistently show that GARDO mitigates reward hacking and enhances generation diversity without sacrificing sample efficiency or exploration, highlighting its effectiveness and robustness.
PDF232January 7, 2026