DiffusionNFT: Онлайн-усиление диффузии с использованием прямого процесса
DiffusionNFT: Online Diffusion Reinforcement with Forward Process
September 19, 2025
Авторы: Kaiwen Zheng, Huayu Chen, Haotian Ye, Haoxiang Wang, Qinsheng Zhang, Kai Jiang, Hang Su, Stefano Ermon, Jun Zhu, Ming-Yu Liu
cs.AI
Аннотация
Онлайн-обучение с подкреплением (RL) играет ключевую роль в пост-обучении языковых моделей, однако его применение к диффузионным моделям остается сложной задачей из-за невычислимых правдоподобий. Недавние работы дискретизируют процесс обратной выборки для обучения в стиле GRPO, но они наследуют фундаментальные недостатки, включая ограничения на решатели, несоответствие между прямым и обратным процессами и сложную интеграцию с классификатор-фри гидом (CFG). Мы представляем Diffusion Negative-aware FineTuning (DiffusionNFT), новую парадигму онлайн RL, которая оптимизирует диффузионные модели непосредственно на прямом процессе через сопоставление потоков. DiffusionNFT противопоставляет положительные и отрицательные генерации, чтобы определить неявное направление улучшения политики, естественным образом интегрируя сигналы подкрепления в задачу обучения с учителем. Такая формулировка позволяет обучаться с использованием произвольных черных ящиков-решателей, устраняет необходимость оценки правдоподобия и требует только чистых изображений вместо траекторий выборки для оптимизации политики. DiffusionNFT до 25 раз эффективнее, чем FlowGRPO, в прямых сравнениях, при этом не требует CFG. Например, DiffusionNFT улучшает оценку GenEval с 0.24 до 0.98 за 1 тыс. шагов, тогда как FlowGRPO достигает 0.95 за более чем 5 тыс. шагов с дополнительным использованием CFG. Используя несколько моделей вознаграждения, DiffusionNFT значительно повышает производительность SD3.5-Medium во всех протестированных бенчмарках.
English
Online reinforcement learning (RL) has been central to post-training language
models, but its extension to diffusion models remains challenging due to
intractable likelihoods. Recent works discretize the reverse sampling process
to enable GRPO-style training, yet they inherit fundamental drawbacks,
including solver restrictions, forward-reverse inconsistency, and complicated
integration with classifier-free guidance (CFG). We introduce Diffusion
Negative-aware FineTuning (DiffusionNFT), a new online RL paradigm that
optimizes diffusion models directly on the forward process via flow matching.
DiffusionNFT contrasts positive and negative generations to define an implicit
policy improvement direction, naturally incorporating reinforcement signals
into the supervised learning objective. This formulation enables training with
arbitrary black-box solvers, eliminates the need for likelihood estimation, and
requires only clean images rather than sampling trajectories for policy
optimization. DiffusionNFT is up to 25times more efficient than FlowGRPO in
head-to-head comparisons, while being CFG-free. For instance, DiffusionNFT
improves the GenEval score from 0.24 to 0.98 within 1k steps, while FlowGRPO
achieves 0.95 with over 5k steps and additional CFG employment. By leveraging
multiple reward models, DiffusionNFT significantly boosts the performance of
SD3.5-Medium in every benchmark tested.