GARDO: Усиление диффузионных моделей без взлома функции вознаграждения
GARDO: Reinforcing Diffusion Models without Reward Hacking
December 30, 2025
Авторы: Haoran He, Yuxiao Ye, Jie Liu, Jiajun Liang, Zhiyong Wang, Ziyang Yuan, Xintao Wang, Hangyu Mao, Pengfei Wan, Ling Pan
cs.AI
Аннотация
Тонкая настройка диффузионных моделей с помощью онлайн-обучения с подкреплением (ОП) продемонстрировала значительный потенциал для улучшения соответствия между текстом и изображением. Однако, поскольку точное определение эталонной целевой функции для визуальных задач остается сложной проблемой, модели часто оптимизируются с использованием суррогатной функции вознаграждения, которая лишь частично отражает истинную цель. Это несоответствие часто приводит к эксплуатации вознаграждения, когда суррогатные оценки растут, в то время как реальное качество изображений ухудшается, а разнообразие генераций коллапсирует. Хотя стандартные решения добавляют регуляризацию относительно референсной политики, чтобы предотвратить эксплуатацию вознаграждения, они жертвуют эффективностью использования выборок и препятствуют исследованию новых областей с высоким вознаграждением, поскольку референсная политика обычно является субоптимальной.
Для решения конкурирующих требований эффективности выборок, эффективного исследования и смягчения эксплуатации вознаграждения мы предлагаем GARDO — универсальную структуру, совместимую с различными алгоритмами ОП. Наше ключевое наблюдение заключается в том, что регуляризацию не нужно применять повсеместно; вместо этого, выборочное штрафование подмножества выборок, демонстрирующих высокую неопределенность, является высокоэффективным. Для решения проблемы исследования GARDO вводит адаптивный механизм регуляризации, в котором референсная модель периодически обновляется в соответствии с возможностями онлайн-политики, обеспечивая актуальную цель регуляризации. Для решения проблемы коллапса мод в ОП GARDO усиливает вознаграждение для высококачественных выборок, которые также демонстрируют высокое разнообразие, поощряя покрытие мод без дестабилизации процесса оптимизации.
Многочисленные эксперименты с различными суррогатными вознаграждениями и на независимых метриках последовательно показывают, что GARDO смягчает эксплуатацию вознаграждения и повышает разнообразие генераций без ущерба для эффективности выборок или исследования, что подчеркивает его эффективность и надежность.
English
Fine-tuning diffusion models via online reinforcement learning (RL) has shown great potential for enhancing text-to-image alignment. However, since precisely specifying a ground-truth objective for visual tasks remains challenging, the models are often optimized using a proxy reward that only partially captures the true goal. This mismatch often leads to reward hacking, where proxy scores increase while real image quality deteriorates and generation diversity collapses. While common solutions add regularization against the reference policy to prevent reward hacking, they compromise sample efficiency and impede the exploration of novel, high-reward regions, as the reference policy is usually sub-optimal. To address the competing demands of sample efficiency, effective exploration, and mitigation of reward hacking, we propose Gated and Adaptive Regularization with Diversity-aware Optimization (GARDO), a versatile framework compatible with various RL algorithms. Our key insight is that regularization need not be applied universally; instead, it is highly effective to selectively penalize a subset of samples that exhibit high uncertainty. To address the exploration challenge, GARDO introduces an adaptive regularization mechanism wherein the reference model is periodically updated to match the capabilities of the online policy, ensuring a relevant regularization target. To address the mode collapse issue in RL, GARDO amplifies the rewards for high-quality samples that also exhibit high diversity, encouraging mode coverage without destabilizing the optimization process. Extensive experiments across diverse proxy rewards and hold-out unseen metrics consistently show that GARDO mitigates reward hacking and enhances generation diversity without sacrificing sample efficiency or exploration, highlighting its effectiveness and robustness.