ChatPaper.aiChatPaper

Diffusiemodellen versterken door directe groepspreferentie-optimalisatie

Reinforcing Diffusion Models by Direct Group Preference Optimization

October 9, 2025
Auteurs: Yihong Luo, Tianyang Hu, Jing Tang
cs.AI

Samenvatting

Hoewel reinforcement learning-methoden zoals Group Relative Preference Optimization (GRPO) grote taalmodellen aanzienlijk hebben verbeterd, blijft het aanpassen ervan aan diffusiemodellen een uitdaging. In het bijzonder vereist GRPO een stochastisch beleid, terwijl de meest kosteneffectieve diffusiesamplers gebaseerd zijn op deterministische ODE's. Recent werk heeft dit probleem aangepakt door inefficiënte SDE-gebaseerde samplers te gebruiken om stochastiek te induceren, maar deze afhankelijkheid van model-agnostisch Gaussiaans ruis leidt tot langzame convergentie. Om dit conflict op te lossen, stellen we Direct Group Preference Optimization (DGPO) voor, een nieuw online RL-algoritme dat het beleidsgradiëntenraamwerk volledig achterwege laat. DGPO leert direct van groepsniveauvoorkeuren, die gebruikmaken van relatieve informatie van samples binnen groepen. Dit ontwerp elimineert de noodzaak van inefficiënte stochastische beleidsregels, waardoor het gebruik van efficiënte deterministische ODE-samplers en snellere training mogelijk wordt. Uitgebreide resultaten laten zien dat DGPO ongeveer 20 keer sneller traint dan bestaande state-of-the-art methoden en superieure prestaties behaalt op zowel in-domein als out-of-domein beloningsmetrieken. Code is beschikbaar op https://github.com/Luo-Yihong/DGPO.
English
While reinforcement learning methods such as Group Relative Preference Optimization (GRPO) have significantly enhanced Large Language Models, adapting them to diffusion models remains challenging. In particular, GRPO demands a stochastic policy, yet the most cost-effective diffusion samplers are based on deterministic ODEs. Recent work addresses this issue by using inefficient SDE-based samplers to induce stochasticity, but this reliance on model-agnostic Gaussian noise leads to slow convergence. To resolve this conflict, we propose Direct Group Preference Optimization (DGPO), a new online RL algorithm that dispenses with the policy-gradient framework entirely. DGPO learns directly from group-level preferences, which utilize relative information of samples within groups. This design eliminates the need for inefficient stochastic policies, unlocking the use of efficient deterministic ODE samplers and faster training. Extensive results show that DGPO trains around 20 times faster than existing state-of-the-art methods and achieves superior performance on both in-domain and out-of-domain reward metrics. Code is available at https://github.com/Luo-Yihong/DGPO.
PDF102October 10, 2025