ChatPaper.aiChatPaper

DiffusionNFT: Online-Diffusionsverstärkung mit Vorwärtsprozess

DiffusionNFT: Online Diffusion Reinforcement with Forward Process

September 19, 2025
papers.authors: Kaiwen Zheng, Huayu Chen, Haotian Ye, Haoxiang Wang, Qinsheng Zhang, Kai Jiang, Hang Su, Stefano Ermon, Jun Zhu, Ming-Yu Liu
cs.AI

papers.abstract

Online Reinforcement Learning (RL) hat eine zentrale Rolle bei der Nachschulung von Sprachmodellen gespielt, doch seine Erweiterung auf Diffusionsmodelle bleibt aufgrund von intrakten Wahrscheinlichkeiten eine Herausforderung. Aktuelle Arbeiten diskretisieren den umgekehrten Sampling-Prozess, um GRPO-ähnliches Training zu ermöglichen, erben jedoch grundlegende Nachteile, darunter Solver-Einschränkungen, Vorwärts-Rückwärts-Inkonsistenz und eine komplizierte Integration mit Classifier-Free Guidance (CFG). Wir stellen Diffusion Negative-aware FineTuning (DiffusionNFT) vor, ein neues Online-RL-Paradigma, das Diffusionsmodelle direkt über den Vorwärtsprozess mittels Flow Matching optimiert. DiffusionNFT kontrastiert positive und negative Generierungen, um eine implizite Richtung der Politikverbesserung zu definieren, und integriert dabei auf natürliche Weise Verstärkungssignale in das überwachte Lernziel. Diese Formulierung ermöglicht das Training mit beliebigen Black-Box-Solvern, eliminiert die Notwendigkeit der Wahrscheinlichkeitsschätzung und erfordert lediglich saubere Bilder anstatt von Sampling-Trajektorien für die Politikoptimierung. DiffusionNFT ist in direkten Vergleichen bis zu 25-mal effizienter als FlowGRPO, während es CFG-frei bleibt. Beispielsweise verbessert DiffusionNFT den GenEval-Score von 0,24 auf 0,98 innerhalb von 1.000 Schritten, während FlowGRPO 0,95 mit über 5.000 Schritten und zusätzlichem CFG-Einsatz erreicht. Durch die Nutzung mehrerer Belohnungsmodelle steigert DiffusionNFT die Leistung von SD3.5-Medium in jedem getesteten Benchmark signifikant.
English
Online reinforcement learning (RL) has been central to post-training language models, but its extension to diffusion models remains challenging due to intractable likelihoods. Recent works discretize the reverse sampling process to enable GRPO-style training, yet they inherit fundamental drawbacks, including solver restrictions, forward-reverse inconsistency, and complicated integration with classifier-free guidance (CFG). We introduce Diffusion Negative-aware FineTuning (DiffusionNFT), a new online RL paradigm that optimizes diffusion models directly on the forward process via flow matching. DiffusionNFT contrasts positive and negative generations to define an implicit policy improvement direction, naturally incorporating reinforcement signals into the supervised learning objective. This formulation enables training with arbitrary black-box solvers, eliminates the need for likelihood estimation, and requires only clean images rather than sampling trajectories for policy optimization. DiffusionNFT is up to 25times more efficient than FlowGRPO in head-to-head comparisons, while being CFG-free. For instance, DiffusionNFT improves the GenEval score from 0.24 to 0.98 within 1k steps, while FlowGRPO achieves 0.95 with over 5k steps and additional CFG employment. By leveraging multiple reward models, DiffusionNFT significantly boosts the performance of SD3.5-Medium in every benchmark tested.
PDF202September 23, 2025