DiffusionNFT: Refuerzo en línea de difusión con proceso directo
DiffusionNFT: Online Diffusion Reinforcement with Forward Process
September 19, 2025
Autores: Kaiwen Zheng, Huayu Chen, Haotian Ye, Haoxiang Wang, Qinsheng Zhang, Kai Jiang, Hang Su, Stefano Ermon, Jun Zhu, Ming-Yu Liu
cs.AI
Resumen
El aprendizaje por refuerzo en línea (RL, por sus siglas en inglés) ha sido fundamental para el ajuste posterior de modelos de lenguaje, pero su extensión a modelos de difusión sigue siendo un desafío debido a la intratabilidad de las verosimilitudes. Trabajos recientes discretizan el proceso de muestreo inverso para permitir entrenamiento al estilo GRPO, aunque heredan limitaciones fundamentales, como restricciones en los solucionadores, inconsistencia entre los procesos directo e inverso, y una integración complicada con la guía libre de clasificadores (CFG, por sus siglas en inglés). Presentamos Diffusion Negative-aware FineTuning (DiffusionNFT), un nuevo paradigma de RL en línea que optimiza modelos de difusión directamente en el proceso directo mediante emparejamiento de flujos. DiffusionNFT contrasta generaciones positivas y negativas para definir una dirección implícita de mejora de políticas, incorporando naturalmente señales de refuerzo en el objetivo de aprendizaje supervisado. Esta formulación permite entrenar con solucionadores de caja negra arbitrarios, elimina la necesidad de estimación de verosimilitud y requiere únicamente imágenes limpias en lugar de trayectorias de muestreo para la optimización de políticas. DiffusionNFT es hasta 25 veces más eficiente que FlowGRPO en comparaciones directas, además de ser libre de CFG. Por ejemplo, DiffusionNFT mejora la puntuación GenEval de 0.24 a 0.98 en menos de 1k pasos, mientras que FlowGRPO alcanza 0.95 con más de 5k pasos y el uso adicional de CFG. Al aprovechar múltiples modelos de recompensa, DiffusionNFT mejora significativamente el rendimiento de SD3.5-Medium en todos los puntos de referencia evaluados.
English
Online reinforcement learning (RL) has been central to post-training language
models, but its extension to diffusion models remains challenging due to
intractable likelihoods. Recent works discretize the reverse sampling process
to enable GRPO-style training, yet they inherit fundamental drawbacks,
including solver restrictions, forward-reverse inconsistency, and complicated
integration with classifier-free guidance (CFG). We introduce Diffusion
Negative-aware FineTuning (DiffusionNFT), a new online RL paradigm that
optimizes diffusion models directly on the forward process via flow matching.
DiffusionNFT contrasts positive and negative generations to define an implicit
policy improvement direction, naturally incorporating reinforcement signals
into the supervised learning objective. This formulation enables training with
arbitrary black-box solvers, eliminates the need for likelihood estimation, and
requires only clean images rather than sampling trajectories for policy
optimization. DiffusionNFT is up to 25times more efficient than FlowGRPO in
head-to-head comparisons, while being CFG-free. For instance, DiffusionNFT
improves the GenEval score from 0.24 to 0.98 within 1k steps, while FlowGRPO
achieves 0.95 with over 5k steps and additional CFG employment. By leveraging
multiple reward models, DiffusionNFT significantly boosts the performance of
SD3.5-Medium in every benchmark tested.