ChatPaper.aiChatPaper

DiffusionNFT: Онлайн-усиление диффузии с использованием прямого процесса

DiffusionNFT: Online Diffusion Reinforcement with Forward Process

September 19, 2025
Авторы: Kaiwen Zheng, Huayu Chen, Haotian Ye, Haoxiang Wang, Qinsheng Zhang, Kai Jiang, Hang Su, Stefano Ermon, Jun Zhu, Ming-Yu Liu
cs.AI

Аннотация

Онлайн-обучение с подкреплением (RL) играет ключевую роль в пост-обучении языковых моделей, однако его применение к диффузионным моделям остается сложной задачей из-за невычислимых правдоподобий. Недавние работы дискретизируют процесс обратной выборки для обучения в стиле GRPO, но они наследуют фундаментальные недостатки, включая ограничения на решатели, несоответствие между прямым и обратным процессами и сложную интеграцию с классификатор-фри гидом (CFG). Мы представляем Diffusion Negative-aware FineTuning (DiffusionNFT), новую парадигму онлайн RL, которая оптимизирует диффузионные модели непосредственно на прямом процессе через сопоставление потоков. DiffusionNFT противопоставляет положительные и отрицательные генерации, чтобы определить неявное направление улучшения политики, естественным образом интегрируя сигналы подкрепления в задачу обучения с учителем. Такая формулировка позволяет обучаться с использованием произвольных черных ящиков-решателей, устраняет необходимость оценки правдоподобия и требует только чистых изображений вместо траекторий выборки для оптимизации политики. DiffusionNFT до 25 раз эффективнее, чем FlowGRPO, в прямых сравнениях, при этом не требует CFG. Например, DiffusionNFT улучшает оценку GenEval с 0.24 до 0.98 за 1 тыс. шагов, тогда как FlowGRPO достигает 0.95 за более чем 5 тыс. шагов с дополнительным использованием CFG. Используя несколько моделей вознаграждения, DiffusionNFT значительно повышает производительность SD3.5-Medium во всех протестированных бенчмарках.
English
Online reinforcement learning (RL) has been central to post-training language models, but its extension to diffusion models remains challenging due to intractable likelihoods. Recent works discretize the reverse sampling process to enable GRPO-style training, yet they inherit fundamental drawbacks, including solver restrictions, forward-reverse inconsistency, and complicated integration with classifier-free guidance (CFG). We introduce Diffusion Negative-aware FineTuning (DiffusionNFT), a new online RL paradigm that optimizes diffusion models directly on the forward process via flow matching. DiffusionNFT contrasts positive and negative generations to define an implicit policy improvement direction, naturally incorporating reinforcement signals into the supervised learning objective. This formulation enables training with arbitrary black-box solvers, eliminates the need for likelihood estimation, and requires only clean images rather than sampling trajectories for policy optimization. DiffusionNFT is up to 25times more efficient than FlowGRPO in head-to-head comparisons, while being CFG-free. For instance, DiffusionNFT improves the GenEval score from 0.24 to 0.98 within 1k steps, while FlowGRPO achieves 0.95 with over 5k steps and additional CFG employment. By leveraging multiple reward models, DiffusionNFT significantly boosts the performance of SD3.5-Medium in every benchmark tested.
PDF202September 23, 2025