UDM-GRPO:均一離散拡散モデルのための安定かつ効率的なグループ相対ポリシー最適化
UDM-GRPO: Stable and Efficient Group Relative Policy Optimization for Uniform Discrete Diffusion Models
April 20, 2026
著者: Jiaqi Wang, Haoge Deng, Ting Pan, Yang Liu, Chengyuan Wang, Fan Zhang, Yonggang Qi, Xinlong Wang
cs.AI
要旨
Uniform Discrete Diffusion Model(UDM)は近年、離散生成モデリングの有望なパラダイムとして登場したが、強化学習との統合はほとんど検討されていない。我々は、GRPOをUDMに単純に適用すると学習が不安定になり、性能向上も限定的となることを確認した。この問題に対処するため、我々はUDMとRLを統合する初のフレームワークである\Oursを提案する。本手法は以下の二つの重要な知見に基づいている:(i)最終的なクリーンなサンプルを行動として扱うことで、より正確で安定した最適化信号が得られること、(ii)拡散の順過程による軌道の再構築が、確率経路と事前学習分布の整合性を高めること。さらに、学習効率をさらに向上させるため、Reduced-StepとCFG-Freeという二つの戦略を導入する。\Oursは、複数のT2Iタスクにおいてベースモデルの性能を大幅に改善する。特に、GenEvalの精度は69%から96%に、PickScoreは20.46から23.81に向上し、連続設定と離散設定の両方でState-of-the-Art性能を達成した。OCRベンチマークでは精度が8%から57%に上昇し、本手法の一般化能力がさらに実証された。コードはhttps://github.com/Yovecent/UDM-GRPO{https://github.com/Yovecent/UDM-GRPO}で公開されている。
English
Uniform Discrete Diffusion Model (UDM) has recently emerged as a promising paradigm for discrete generative modeling; however, its integration with reinforcement learning remains largely unexplored. We observe that naively applying GRPO to UDM leads to training instability and marginal performance gains. To address this, we propose \Ours, the first framework to integrate UDM with RL. Our method is guided by two key insights: (i) treating the final clean sample as the action provides more accurate and stable optimization signals; and (ii) reconstructing trajectories via the diffusion forward process better aligns probability paths with the pretraining distribution. Additionally, we introduce two strategies, Reduced-Step and CFG-Free, to further improve training efficiency. \Ours significantly improves base model performance across multiple T2I tasks. Notably, GenEval accuracy improves from 69% to 96% and PickScore increases from 20.46 to 23.81, achieving state-of-the-art performance in both continuous and discrete settings. On the OCR benchmark, accuracy rises from 8% to 57%, further validating the generalization ability of our method. Code is available at https://github.com/Yovecent/UDM-GRPO{https://github.com/Yovecent/UDM-GRPO}.