UDM-GRPO : Optimisation de Politique Relative de Groupe Stable et Efficace pour les Modèles de Diffusion Discrets Uniformes

Résumé

Le modèle de diffusion discrète uniforme (UDM) est récemment apparu comme un paradigme prometteur pour la modélisation générative discrète ; cependant, son intégration avec l'apprentissage par renforcement reste largement inexplorée. Nous observons qu'appliquer naïvement GRPO à UDM entraîne une instabilité de l'entraînement et des gains de performance marginaux. Pour résoudre ce problème, nous proposons \Ours, le premier cadre d'intégration d'UDM avec RL. Notre méthode est guidée par deux idées clés : (i) considérer l'échantillon propre final comme l'action fournit des signaux d'optimisation plus précis et stables ; et (ii) reconstruire les trajectoires via le processus direct de diffusion aligne mieux les chemins de probabilité avec la distribution de pré-entraînement. De plus, nous introduisons deux stratégies, Réduction d'étapes et Sans-CFG, pour améliorer davantage l'efficacité de l'entraînement. \Ours améliore significativement les performances du modèle de base sur plusieurs tâches T2I. Notamment, la précision GenEval passe de 69% à 96% et le PickScore augmente de 20,46 à 23,81, atteignant des performances de pointe dans les contextes continus et discrets. Sur le benchmark OCR, la précision passe de 8% à 57%, validant davantage la capacité de généralisation de notre méthode. Le code est disponible à l'adresse https://github.com/Yovecent/UDM-GRPO{https://github.com/Yovecent/UDM-GRPO}.

English

Uniform Discrete Diffusion Model (UDM) has recently emerged as a promising paradigm for discrete generative modeling; however, its integration with reinforcement learning remains largely unexplored. We observe that naively applying GRPO to UDM leads to training instability and marginal performance gains. To address this, we propose \Ours, the first framework to integrate UDM with RL. Our method is guided by two key insights: (i) treating the final clean sample as the action provides more accurate and stable optimization signals; and (ii) reconstructing trajectories via the diffusion forward process better aligns probability paths with the pretraining distribution. Additionally, we introduce two strategies, Reduced-Step and CFG-Free, to further improve training efficiency. \Ours significantly improves base model performance across multiple T2I tasks. Notably, GenEval accuracy improves from 69% to 96% and PickScore increases from 20.46 to 23.81, achieving state-of-the-art performance in both continuous and discrete settings. On the OCR benchmark, accuracy rises from 8% to 57%, further validating the generalization ability of our method. Code is available at https://github.com/Yovecent/UDM-GRPO{https://github.com/Yovecent/UDM-GRPO}.

UDM-GRPO : Optimisation de Politique Relative de Groupe Stable et Efficace pour les Modèles de Diffusion Discrets Uniformes

UDM-GRPO: Stable and Efficient Group Relative Policy Optimization for Uniform Discrete Diffusion Models

Résumé

Support