UDM-GRPO: Otimização de Política Relativa de Grupo Estável e Eficiente para Modelos de Difusão Discreta Uniforme
UDM-GRPO: Stable and Efficient Group Relative Policy Optimization for Uniform Discrete Diffusion Models
April 20, 2026
Autores: Jiaqi Wang, Haoge Deng, Ting Pan, Yang Liu, Chengyuan Wang, Fan Zhang, Yonggang Qi, Xinlong Wang
cs.AI
Resumo
O Modelo de Difusão Discreta Uniforme (UDM) surgiu recentemente como um paradigma promissor para a modelagem generativa discreta; no entanto, a sua integração com o aprendizado por reforço permanece amplamente inexplorada. Observamos que a aplicação ingênua do GRPO ao UDM leva a instabilidade no treinamento e ganhos de desempenho marginais. Para resolver isso, propomos o \Ours, o primeiro framework a integrar o UDM com o RL. O nosso método é guiado por duas ideias-chave: (i) tratar a amostra limpa final como a ação fornece sinais de otimização mais precisos e estáveis; e (ii) reconstruir trajetórias através do processo direto de difusão alinha melhor os caminhos de probabilidade com a distribuição de pré-treinamento. Adicionalmente, introduzimos duas estratégias, *Reduced-Step* e *CFG-Free*, para melhorar ainda mais a eficiência do treinamento. O \Ours melhora significativamente o desempenho do modelo base em múltiplas tarefas T2I. Notavelmente, a precisão no GenEval melhora de 69% para 96% e o PickScore aumenta de 20.46 para 23.81, alcançando desempenho de última geração em configurações contínuas e discretas. No benchmark de OCR, a precisão sobe de 8% para 57%, validando ainda mais a capacidade de generalização do nosso método. O código está disponível em https://github.com/Yovecent/UDM-GRPO{https://github.com/Yovecent/UDM-GRPO}.
English
Uniform Discrete Diffusion Model (UDM) has recently emerged as a promising paradigm for discrete generative modeling; however, its integration with reinforcement learning remains largely unexplored. We observe that naively applying GRPO to UDM leads to training instability and marginal performance gains. To address this, we propose \Ours, the first framework to integrate UDM with RL. Our method is guided by two key insights: (i) treating the final clean sample as the action provides more accurate and stable optimization signals; and (ii) reconstructing trajectories via the diffusion forward process better aligns probability paths with the pretraining distribution. Additionally, we introduce two strategies, Reduced-Step and CFG-Free, to further improve training efficiency. \Ours significantly improves base model performance across multiple T2I tasks. Notably, GenEval accuracy improves from 69% to 96% and PickScore increases from 20.46 to 23.81, achieving state-of-the-art performance in both continuous and discrete settings. On the OCR benchmark, accuracy rises from 8% to 57%, further validating the generalization ability of our method. Code is available at https://github.com/Yovecent/UDM-GRPO{https://github.com/Yovecent/UDM-GRPO}.