Diffusiemodellen versterken door directe groepspreferentie-optimalisatie
Reinforcing Diffusion Models by Direct Group Preference Optimization
October 9, 2025
Auteurs: Yihong Luo, Tianyang Hu, Jing Tang
cs.AI
Samenvatting
Hoewel reinforcement learning-methoden zoals Group Relative Preference Optimization (GRPO) grote taalmodellen aanzienlijk hebben verbeterd, blijft het aanpassen ervan aan diffusiemodellen een uitdaging. In het bijzonder vereist GRPO een stochastisch beleid, terwijl de meest kosteneffectieve diffusiesamplers gebaseerd zijn op deterministische ODE's. Recent werk heeft dit probleem aangepakt door inefficiënte SDE-gebaseerde samplers te gebruiken om stochastiek te induceren, maar deze afhankelijkheid van model-agnostisch Gaussiaans ruis leidt tot langzame convergentie. Om dit conflict op te lossen, stellen we Direct Group Preference Optimization (DGPO) voor, een nieuw online RL-algoritme dat het beleidsgradiëntenraamwerk volledig achterwege laat. DGPO leert direct van groepsniveauvoorkeuren, die gebruikmaken van relatieve informatie van samples binnen groepen. Dit ontwerp elimineert de noodzaak van inefficiënte stochastische beleidsregels, waardoor het gebruik van efficiënte deterministische ODE-samplers en snellere training mogelijk wordt. Uitgebreide resultaten laten zien dat DGPO ongeveer 20 keer sneller traint dan bestaande state-of-the-art methoden en superieure prestaties behaalt op zowel in-domein als out-of-domein beloningsmetrieken. Code is beschikbaar op https://github.com/Luo-Yihong/DGPO.
English
While reinforcement learning methods such as Group Relative Preference
Optimization (GRPO) have significantly enhanced Large Language Models, adapting
them to diffusion models remains challenging. In particular, GRPO demands a
stochastic policy, yet the most cost-effective diffusion samplers are based on
deterministic ODEs. Recent work addresses this issue by using inefficient
SDE-based samplers to induce stochasticity, but this reliance on model-agnostic
Gaussian noise leads to slow convergence. To resolve this conflict, we propose
Direct Group Preference Optimization (DGPO), a new online RL algorithm that
dispenses with the policy-gradient framework entirely. DGPO learns directly
from group-level preferences, which utilize relative information of samples
within groups. This design eliminates the need for inefficient stochastic
policies, unlocking the use of efficient deterministic ODE samplers and faster
training. Extensive results show that DGPO trains around 20 times faster than
existing state-of-the-art methods and achieves superior performance on both
in-domain and out-of-domain reward metrics. Code is available at
https://github.com/Luo-Yihong/DGPO.