UDM-GRPO: Ottimizzazione delle Politiche Relative di Gruppo Stabile ed Efficiente per Modelli di Diffusione Discreti Uniformi

Abstract

Il Modello di Diffusione Discreta Uniforme (UDM) è recentemente emerso come paradigma promettente per la modellazione generativa discreta; tuttavia, la sua integrazione con l'apprendimento per rinforzo rimane ampiamente inesplorata. Osserviamo che l'applicazione ingenua di GRPO a UDM porta a instabilità nell'addestramento e a miglioramenti marginali delle prestazioni. Per affrontare questo problema, proponiamo \Ours, il primo framework che integra UDM con RL. Il nostro metodo è guidato da due intuizioni chiave: (i) trattare il campione pulito finale come azione fornisce segnali di ottimizzazione più accurati e stabili; e (ii) ricostruire le traiettorie tramite il processo diretto di diffusione allinea meglio i percorsi probabilistici con la distribuzione di pre-addestramento. Inoltre, introduciamo due strategie, Reduced-Step e CFG-Free, per migliorare ulteriormente l'efficienza dell'addestramento. \Ours migliora significativamente le prestazioni del modello base in molteplici attività T2I. In particolare, l'accuratezza di GenEval migliora dal 69% al 96% e il PickScore aumenta da 20,46 a 23,81, raggiungendo prestazioni all'avanguardia sia in contesti continui che discreti. Sul benchmark OCR, l'accuratezza sale dall'8% al 57%, convalidando ulteriormente la capacità di generalizzazione del nostro metodo. Il codice è disponibile all'indirizzo https://github.com/Yovecent/UDM-GRPO{https://github.com/Yovecent/UDM-GRPO}.

English

Uniform Discrete Diffusion Model (UDM) has recently emerged as a promising paradigm for discrete generative modeling; however, its integration with reinforcement learning remains largely unexplored. We observe that naively applying GRPO to UDM leads to training instability and marginal performance gains. To address this, we propose \Ours, the first framework to integrate UDM with RL. Our method is guided by two key insights: (i) treating the final clean sample as the action provides more accurate and stable optimization signals; and (ii) reconstructing trajectories via the diffusion forward process better aligns probability paths with the pretraining distribution. Additionally, we introduce two strategies, Reduced-Step and CFG-Free, to further improve training efficiency. \Ours significantly improves base model performance across multiple T2I tasks. Notably, GenEval accuracy improves from 69% to 96% and PickScore increases from 20.46 to 23.81, achieving state-of-the-art performance in both continuous and discrete settings. On the OCR benchmark, accuracy rises from 8% to 57%, further validating the generalization ability of our method. Code is available at https://github.com/Yovecent/UDM-GRPO{https://github.com/Yovecent/UDM-GRPO}.

UDM-GRPO: Ottimizzazione delle Politiche Relative di Gruppo Stabile ed Efficiente per Modelli di Diffusione Discreti Uniformi

UDM-GRPO: Stable and Efficient Group Relative Policy Optimization for Uniform Discrete Diffusion Models

Abstract

Support