UDM-GRPO: 균일 이산 확산 모델을 위한 안정적이고 효율적인 그룹 상대 정책 최적화
UDM-GRPO: Stable and Efficient Group Relative Policy Optimization for Uniform Discrete Diffusion Models
April 20, 2026
저자: Jiaqi Wang, Haoge Deng, Ting Pan, Yang Liu, Chengyuan Wang, Fan Zhang, Yonggang Qi, Xinlong Wang
cs.AI
초록
균일 이산 확산 모델(Uniform Discrete Diffusion Model, UDM)은 최근 이산 생성 모델링의 유망한 패러다임으로 부상했으나, 강화 학습과의 통합은 여전히 미개척 분야로 남아 있습니다. 우리는 GRPO를 UDM에 단순 적용할 경우 훈련 불안정성과 미미한 성능 향상만 발생함을 확인했습니다. 이를 해결하기 위해 우리는 UDM과 RL을 통합한 최초의 프레임워크인 \Ours를 제안합니다. 우리의 방법은 두 가지 핵심 통찰에 기반합니다: (i) 최종 정제된 샘플을 행동으로 간주함으로써 더 정확하고 안정적인 최적화 신호를 제공하며, (ii) 확산 순방향 과정을 통한 궤적 재구성이 사전 훈련 분포와 확률 경로를 더 잘 정렬합니다. 또한 훈련 효율을 추가로 개선하기 위한 Reduced-Step과 CFG-Free 두 전략을 도입했습니다. \Ours는 다양한 T2I 작업에서 기본 모델 성능을 크게 향상시켰습니다. 특히 GenEval 정확도는 69%에서 96%로, PickScore는 20.46에서 23.81로 상승하여 연속 및 이산 설정 모두에서 최첨단 성능을 달성했습니다. OCR 벤치마크에서는 정확도가 8%에서 57%로 증가하여 우리 방법의 일반화 능력을 추가로 입증했습니다. 코드는 https://github.com/Yovecent/UDM-GRPO에서 확인할 수 있습니다.
English
Uniform Discrete Diffusion Model (UDM) has recently emerged as a promising paradigm for discrete generative modeling; however, its integration with reinforcement learning remains largely unexplored. We observe that naively applying GRPO to UDM leads to training instability and marginal performance gains. To address this, we propose \Ours, the first framework to integrate UDM with RL. Our method is guided by two key insights: (i) treating the final clean sample as the action provides more accurate and stable optimization signals; and (ii) reconstructing trajectories via the diffusion forward process better aligns probability paths with the pretraining distribution. Additionally, we introduce two strategies, Reduced-Step and CFG-Free, to further improve training efficiency. \Ours significantly improves base model performance across multiple T2I tasks. Notably, GenEval accuracy improves from 69% to 96% and PickScore increases from 20.46 to 23.81, achieving state-of-the-art performance in both continuous and discrete settings. On the OCR benchmark, accuracy rises from 8% to 57%, further validating the generalization ability of our method. Code is available at https://github.com/Yovecent/UDM-GRPO{https://github.com/Yovecent/UDM-GRPO}.