UDM-GRPO: Stabile und effiziente gruppenrelative Politikoptimierung für uniforme diskrete Diffusionsmodelle

Zusammenfassung

Das Uniform Discrete Diffusion Model (UDM) hat sich kürzlich als vielversprechendes Paradigma für die diskrete generative Modellierung erwiesen; dessen Integration in Reinforcement Learning ist jedoch weitgehend unerforscht. Wir beobachten, dass eine naive Anwendung von GRPO auf UDM zu Trainingsinstabilität und nur marginalen Leistungssteigerungen führt. Um dies zu beheben, schlagen wir \Ours vor, den ersten Rahmen zur Integration von UDM in RL. Unser Ansatz wird von zwei zentralen Erkenntnissen geleitet: (i) Die Behandlung der endgültigen bereinigten Stichprobe als Aktion liefert präzisere und stabilere Optimierungssignale; und (ii) die Rekonstruktion von Trajektorien über den Diffusion-Forward-Prozess sorgt für eine bessere Ausrichtung der Wahrscheinlichkeitspfade an der Vortrainingsverteilung. Zusätzlich führen wir zwei Strategien ein, Reduced-Step und CFG-Free, um die Trainingseffizienz weiter zu steigern. \Ours verbessert die Leistung des Basismodells signifikant über mehrere T2I-Aufgaben hinweg. Besonders bemerkenswert ist die Steigerung der GenEval-Genauigkeit von 69 % auf 96 % und des PickScore von 20,46 auf 23,81, was state-of-the-art Leistung in sowohl kontinuierlichen als auch diskreten Settings erreicht. Beim OCR-Benchmark steigt die Genauigkeit von 8 % auf 57 %, was die Generalisierungsfähigkeit unserer Methode weiter validiert. Code ist verfügbar unter https://github.com/Yovecent/UDM-GRPO{https://github.com/Yovecent/UDM-GRPO}.

English

Uniform Discrete Diffusion Model (UDM) has recently emerged as a promising paradigm for discrete generative modeling; however, its integration with reinforcement learning remains largely unexplored. We observe that naively applying GRPO to UDM leads to training instability and marginal performance gains. To address this, we propose \Ours, the first framework to integrate UDM with RL. Our method is guided by two key insights: (i) treating the final clean sample as the action provides more accurate and stable optimization signals; and (ii) reconstructing trajectories via the diffusion forward process better aligns probability paths with the pretraining distribution. Additionally, we introduce two strategies, Reduced-Step and CFG-Free, to further improve training efficiency. \Ours significantly improves base model performance across multiple T2I tasks. Notably, GenEval accuracy improves from 69% to 96% and PickScore increases from 20.46 to 23.81, achieving state-of-the-art performance in both continuous and discrete settings. On the OCR benchmark, accuracy rises from 8% to 57%, further validating the generalization ability of our method. Code is available at https://github.com/Yovecent/UDM-GRPO{https://github.com/Yovecent/UDM-GRPO}.

UDM-GRPO: Stabile und effiziente gruppenrelative Politikoptimierung für uniforme diskrete Diffusionsmodelle

UDM-GRPO: Stable and Efficient Group Relative Policy Optimization for Uniform Discrete Diffusion Models

Zusammenfassung

Support