ChatPaper.aiChatPaper

DiffusionNFT: Reforço de Difusão Online com Processo Direto

DiffusionNFT: Online Diffusion Reinforcement with Forward Process

September 19, 2025
Autores: Kaiwen Zheng, Huayu Chen, Haotian Ye, Haoxiang Wang, Qinsheng Zhang, Kai Jiang, Hang Su, Stefano Ermon, Jun Zhu, Ming-Yu Liu
cs.AI

Resumo

O aprendizado por reforço online (RL) tem sido central para o pós-treinamento de modelos de linguagem, mas sua extensão para modelos de difusão permanece desafiadora devido às probabilidades intratáveis. Trabalhos recentes discretizam o processo de amostragem reversa para permitir o treinamento no estilo GRPO, mas eles herdam desvantagens fundamentais, incluindo restrições de solucionadores, inconsistência entre os processos direto e reverso, e integração complicada com a orientação sem classificador (CFG). Introduzimos o Diffusion Negative-aware FineTuning (DiffusionNFT), um novo paradigma de RL online que otimiza modelos de difusão diretamente no processo direto via correspondência de fluxo. O DiffusionNFT contrasta gerações positivas e negativas para definir uma direção implícita de melhoria de política, incorporando naturalmente sinais de reforço ao objetivo de aprendizado supervisionado. Essa formulação permite o treinamento com solucionadores de caixa preta arbitrários, elimina a necessidade de estimativa de probabilidade e requer apenas imagens limpas em vez de trajetórias de amostragem para otimização de política. O DiffusionNFT é até 25 vezes mais eficiente que o FlowGRPO em comparações diretas, além de ser livre de CFG. Por exemplo, o DiffusionNFT melhora a pontuação GenEval de 0,24 para 0,98 em 1k passos, enquanto o FlowGRPO alcança 0,95 com mais de 5k passos e o uso adicional de CFG. Ao aproveitar múltiplos modelos de recompensa, o DiffusionNFT aumenta significativamente o desempenho do SD3.5-Medium em todos os benchmarks testados.
English
Online reinforcement learning (RL) has been central to post-training language models, but its extension to diffusion models remains challenging due to intractable likelihoods. Recent works discretize the reverse sampling process to enable GRPO-style training, yet they inherit fundamental drawbacks, including solver restrictions, forward-reverse inconsistency, and complicated integration with classifier-free guidance (CFG). We introduce Diffusion Negative-aware FineTuning (DiffusionNFT), a new online RL paradigm that optimizes diffusion models directly on the forward process via flow matching. DiffusionNFT contrasts positive and negative generations to define an implicit policy improvement direction, naturally incorporating reinforcement signals into the supervised learning objective. This formulation enables training with arbitrary black-box solvers, eliminates the need for likelihood estimation, and requires only clean images rather than sampling trajectories for policy optimization. DiffusionNFT is up to 25times more efficient than FlowGRPO in head-to-head comparisons, while being CFG-free. For instance, DiffusionNFT improves the GenEval score from 0.24 to 0.98 within 1k steps, while FlowGRPO achieves 0.95 with over 5k steps and additional CFG employment. By leveraging multiple reward models, DiffusionNFT significantly boosts the performance of SD3.5-Medium in every benchmark tested.
PDF202September 23, 2025