DiffusionNFT: フォワードプロセスを用いたオンライン拡散強化学習
DiffusionNFT: Online Diffusion Reinforcement with Forward Process
September 19, 2025
著者: Kaiwen Zheng, Huayu Chen, Haotian Ye, Haoxiang Wang, Qinsheng Zhang, Kai Jiang, Hang Su, Stefano Ermon, Jun Zhu, Ming-Yu Liu
cs.AI
要旨
オンライン強化学習(RL)は、言語モデルのポストトレーニングにおいて中心的な役割を果たしてきたが、拡散モデルへの拡張は、扱いにくい尤度のため依然として困難である。最近の研究では、逆サンプリングプロセスを離散化してGRPOスタイルのトレーニングを可能にしているが、それらは基本的な欠点を引き継いでいる。これには、ソルバーの制限、順方向と逆方向の不一致、そしてクラスファイアフリーガイダンス(CFG)との複雑な統合が含まれる。我々は、Diffusion Negative-aware FineTuning(DiffusionNFT)を導入する。これは、フローマッチングを介して順方向プロセス上で直接拡散モデルを最適化する新しいオンラインRLパラダイムである。DiffusionNFTは、ポジティブとネガティブな生成を対比させて暗黙のポリシー改善方向を定義し、強化学習信号を教師あり学習の目的関数に自然に組み込む。この定式化により、任意のブラックボックスソルバーでのトレーニングが可能になり、尤度推定の必要性がなくなり、ポリシー最適化のためのサンプリング軌跡ではなくクリーンな画像のみが必要となる。DiffusionNFTは、FlowGRPOと比較して最大25倍効率的であり、かつCFGを必要としない。例えば、DiffusionNFTは1,000ステップ以内でGenEvalスコアを0.24から0.98に改善するが、FlowGRPOは5,000ステップ以上と追加のCFGの使用を必要として0.95を達成する。複数の報酬モデルを活用することで、DiffusionNFTはSD3.5-Mediumの性能をすべてのベンチマークで大幅に向上させる。
English
Online reinforcement learning (RL) has been central to post-training language
models, but its extension to diffusion models remains challenging due to
intractable likelihoods. Recent works discretize the reverse sampling process
to enable GRPO-style training, yet they inherit fundamental drawbacks,
including solver restrictions, forward-reverse inconsistency, and complicated
integration with classifier-free guidance (CFG). We introduce Diffusion
Negative-aware FineTuning (DiffusionNFT), a new online RL paradigm that
optimizes diffusion models directly on the forward process via flow matching.
DiffusionNFT contrasts positive and negative generations to define an implicit
policy improvement direction, naturally incorporating reinforcement signals
into the supervised learning objective. This formulation enables training with
arbitrary black-box solvers, eliminates the need for likelihood estimation, and
requires only clean images rather than sampling trajectories for policy
optimization. DiffusionNFT is up to 25times more efficient than FlowGRPO in
head-to-head comparisons, while being CFG-free. For instance, DiffusionNFT
improves the GenEval score from 0.24 to 0.98 within 1k steps, while FlowGRPO
achieves 0.95 with over 5k steps and additional CFG employment. By leveraging
multiple reward models, DiffusionNFT significantly boosts the performance of
SD3.5-Medium in every benchmark tested.