ChatPaper.aiChatPaper

DiffusionNFT : Renforcement en ligne de la diffusion avec processus direct

DiffusionNFT: Online Diffusion Reinforcement with Forward Process

September 19, 2025
papers.authors: Kaiwen Zheng, Huayu Chen, Haotian Ye, Haoxiang Wang, Qinsheng Zhang, Kai Jiang, Hang Su, Stefano Ermon, Jun Zhu, Ming-Yu Liu
cs.AI

papers.abstract

L'apprentissage par renforcement en ligne (RL) a joué un rôle central dans le post-entraînement des modèles de langage, mais son extension aux modèles de diffusion reste difficile en raison de la complexité des vraisemblances. Les travaux récents discrétisent le processus d'échantillonnage inverse pour permettre un entraînement de type GRPO, mais ils héritent de limitations fondamentales, incluant des restrictions sur les solveurs, une incohérence entre les processus direct et inverse, et une intégration complexe avec le guidage sans classifieur (CFG). Nous introduisons Diffusion Negative-aware FineTuning (DiffusionNFT), un nouveau paradigme de RL en ligne qui optimise directement les modèles de diffusion sur le processus direct via le flow matching. DiffusionNFT oppose les générations positives et négatives pour définir une direction implicite d'amélioration de la politique, intégrant naturellement les signaux de renforcement dans l'objectif d'apprentissage supervisé. Cette formulation permet un entraînement avec des solveurs boîte noire arbitraires, élimine le besoin d'estimation de vraisemblance, et ne nécessite que des images propres plutôt que des trajectoires d'échantillonnage pour l'optimisation de la politique. DiffusionNFT est jusqu'à 25 fois plus efficace que FlowGRPO dans des comparaisons directes, tout en étant exempt de CFG. Par exemple, DiffusionNFT améliore le score GenEval de 0,24 à 0,98 en 1 000 étapes, tandis que FlowGRPO atteint 0,95 avec plus de 5 000 étapes et l'utilisation supplémentaire de CFG. En exploitant plusieurs modèles de récompense, DiffusionNFT améliore significativement les performances de SD3.5-Medium dans tous les benchmarks testés.
English
Online reinforcement learning (RL) has been central to post-training language models, but its extension to diffusion models remains challenging due to intractable likelihoods. Recent works discretize the reverse sampling process to enable GRPO-style training, yet they inherit fundamental drawbacks, including solver restrictions, forward-reverse inconsistency, and complicated integration with classifier-free guidance (CFG). We introduce Diffusion Negative-aware FineTuning (DiffusionNFT), a new online RL paradigm that optimizes diffusion models directly on the forward process via flow matching. DiffusionNFT contrasts positive and negative generations to define an implicit policy improvement direction, naturally incorporating reinforcement signals into the supervised learning objective. This formulation enables training with arbitrary black-box solvers, eliminates the need for likelihood estimation, and requires only clean images rather than sampling trajectories for policy optimization. DiffusionNFT is up to 25times more efficient than FlowGRPO in head-to-head comparisons, while being CFG-free. For instance, DiffusionNFT improves the GenEval score from 0.24 to 0.98 within 1k steps, while FlowGRPO achieves 0.95 with over 5k steps and additional CFG employment. By leveraging multiple reward models, DiffusionNFT significantly boosts the performance of SD3.5-Medium in every benchmark tested.
PDF202September 23, 2025