DiffusionNFT: Online Diffusieversterking met Voorwaarts Proces
DiffusionNFT: Online Diffusion Reinforcement with Forward Process
September 19, 2025
Auteurs: Kaiwen Zheng, Huayu Chen, Haotian Ye, Haoxiang Wang, Qinsheng Zhang, Kai Jiang, Hang Su, Stefano Ermon, Jun Zhu, Ming-Yu Liu
cs.AI
Samenvatting
Online reinforcement learning (RL) is van cruciaal belang geweest voor het na-trainen van taalmodelen, maar de uitbreiding naar diffusiemodellen blijft uitdagend vanwege onberekenbare waarschijnlijkheden. Recente werken discretiseren het omgekeerde samplingproces om GRPO-stijl training mogelijk te maken, maar ze erven fundamentele beperkingen, waaronder solverbeperkingen, inconsistentie tussen voorwaartse en omgekeerde processen, en gecompliceerde integratie met classifier-free guidance (CFG). Wij introduceren Diffusion Negative-aware FineTuning (DiffusionNFT), een nieuw online RL-paradigma dat diffusiemodellen direct optimaliseert op het voorwaartse proces via flow matching. DiffusionNFT contrasteert positieve en negatieve generaties om een impliciete richting voor beleidsverbetering te definiëren, waarbij versterkingssignalen op natuurlijke wijze worden geïntegreerd in het doel van gesuperviseerd leren. Deze formulering maakt training mogelijk met willekeurige black-box solvers, elimineert de noodzaak van waarschijnlijkheidsschatting, en vereist alleen schone afbeeldingen in plaats van samplingtrajecten voor beleidsoptimalisatie. DiffusionNFT is tot 25 keer efficiënter dan FlowGRPO in directe vergelijkingen, terwijl het CFG-vrij is. Zo verbetert DiffusionNFT de GenEval-score van 0.24 naar 0.98 binnen 1k stappen, terwijl FlowGRPO 0.95 bereikt met meer dan 5k stappen en aanvullende CFG-inzet. Door gebruik te maken van meerdere beloningsmodellen, verbetert DiffusionNFT de prestaties van SD3.5-Medium aanzienlijk in elke geteste benchmark.
English
Online reinforcement learning (RL) has been central to post-training language
models, but its extension to diffusion models remains challenging due to
intractable likelihoods. Recent works discretize the reverse sampling process
to enable GRPO-style training, yet they inherit fundamental drawbacks,
including solver restrictions, forward-reverse inconsistency, and complicated
integration with classifier-free guidance (CFG). We introduce Diffusion
Negative-aware FineTuning (DiffusionNFT), a new online RL paradigm that
optimizes diffusion models directly on the forward process via flow matching.
DiffusionNFT contrasts positive and negative generations to define an implicit
policy improvement direction, naturally incorporating reinforcement signals
into the supervised learning objective. This formulation enables training with
arbitrary black-box solvers, eliminates the need for likelihood estimation, and
requires only clean images rather than sampling trajectories for policy
optimization. DiffusionNFT is up to 25times more efficient than FlowGRPO in
head-to-head comparisons, while being CFG-free. For instance, DiffusionNFT
improves the GenEval score from 0.24 to 0.98 within 1k steps, while FlowGRPO
achieves 0.95 with over 5k steps and additional CFG employment. By leveraging
multiple reward models, DiffusionNFT significantly boosts the performance of
SD3.5-Medium in every benchmark tested.