DiffusionNFT: Rafforzamento Online della Diffusione con Processo Diretto
DiffusionNFT: Online Diffusion Reinforcement with Forward Process
September 19, 2025
Autori: Kaiwen Zheng, Huayu Chen, Haotian Ye, Haoxiang Wang, Qinsheng Zhang, Kai Jiang, Hang Su, Stefano Ermon, Jun Zhu, Ming-Yu Liu
cs.AI
Abstract
L'apprendimento per rinforzo online (RL) è stato fondamentale per il post-addestramento dei modelli linguistici, ma la sua estensione ai modelli di diffusione rimane impegnativa a causa delle verosimiglianze intrattabili. Recenti lavori discretizzano il processo di campionamento inverso per abilitare un addestramento di tipo GRPO, ma ereditano limitazioni fondamentali, tra cui restrizioni del risolutore, incoerenza tra processi diretti e inversi, e una complessa integrazione con la guida senza classificatore (CFG). Introduciamo Diffusion Negative-aware FineTuning (DiffusionNFT), un nuovo paradigma di RL online che ottimizza i modelli di diffusione direttamente sul processo diretto tramite il flow matching. DiffusionNFT contrappone generazioni positive e negative per definire una direzione implicita di miglioramento della politica, incorporando naturalmente i segnali di rinforzo nell'obiettivo di apprendimento supervisionato. Questa formulazione consente l'addestramento con risolutori arbitrari a scatola chiusa, elimina la necessità di stima della verosimiglianza e richiede solo immagini pulite anziché traiettorie di campionamento per l'ottimizzazione della politica. DiffusionNFT è fino a 25 volte più efficiente di FlowGRPO in confronti diretti, pur essendo privo di CFG. Ad esempio, DiffusionNFT migliora il punteggio GenEval da 0,24 a 0,98 entro 1k passi, mentre FlowGRPO raggiunge 0,95 con oltre 5k passi e l'impiego aggiuntivo di CFG. Sfruttando modelli di ricompensa multipli, DiffusionNFT migliora significativamente le prestazioni di SD3.5-Medium in ogni benchmark testato.
English
Online reinforcement learning (RL) has been central to post-training language
models, but its extension to diffusion models remains challenging due to
intractable likelihoods. Recent works discretize the reverse sampling process
to enable GRPO-style training, yet they inherit fundamental drawbacks,
including solver restrictions, forward-reverse inconsistency, and complicated
integration with classifier-free guidance (CFG). We introduce Diffusion
Negative-aware FineTuning (DiffusionNFT), a new online RL paradigm that
optimizes diffusion models directly on the forward process via flow matching.
DiffusionNFT contrasts positive and negative generations to define an implicit
policy improvement direction, naturally incorporating reinforcement signals
into the supervised learning objective. This formulation enables training with
arbitrary black-box solvers, eliminates the need for likelihood estimation, and
requires only clean images rather than sampling trajectories for policy
optimization. DiffusionNFT is up to 25times more efficient than FlowGRPO in
head-to-head comparisons, while being CFG-free. For instance, DiffusionNFT
improves the GenEval score from 0.24 to 0.98 within 1k steps, while FlowGRPO
achieves 0.95 with over 5k steps and additional CFG employment. By leveraging
multiple reward models, DiffusionNFT significantly boosts the performance of
SD3.5-Medium in every benchmark tested.