Reforçando Modelos de Difusão por Otimização Direta de Preferências de Grupo
Reinforcing Diffusion Models by Direct Group Preference Optimization
October 9, 2025
Autores: Yihong Luo, Tianyang Hu, Jing Tang
cs.AI
Resumo
Embora métodos de aprendizado por reforço, como a Otimização de Preferência Relativa de Grupo (GRPO), tenham aprimorado significativamente os Modelos de Linguagem de Grande Escala (LLMs), adaptá-los a modelos de difusão continua sendo um desafio. Em particular, o GRPO exige uma política estocástica, enquanto os amostradores de difusão mais econômicos são baseados em EDOs determinísticas. Trabalhos recentes abordam essa questão utilizando amostradores baseados em EDEs, que são ineficientes, para induzir estocasticidade. No entanto, essa dependência de ruído gaussiano independente do modelo resulta em convergência lenta. Para resolver esse conflito, propomos a Otimização Direta de Preferência de Grupo (DGPO), um novo algoritmo de aprendizado por reforço online que dispensa completamente o framework de gradiente de política. O DGPO aprende diretamente a partir de preferências em nível de grupo, que utilizam informações relativas das amostras dentro dos grupos. Esse design elimina a necessidade de políticas estocásticas ineficientes, permitindo o uso de amostradores determinísticos de EDOs mais eficientes e um treinamento mais rápido. Resultados extensivos mostram que o DGPO treina aproximadamente 20 vezes mais rápido que os métodos state-of-the-art existentes e alcança desempenho superior tanto em métricas de recompensa dentro do domínio quanto fora dele. O código está disponível em https://github.com/Luo-Yihong/DGPO.
English
While reinforcement learning methods such as Group Relative Preference
Optimization (GRPO) have significantly enhanced Large Language Models, adapting
them to diffusion models remains challenging. In particular, GRPO demands a
stochastic policy, yet the most cost-effective diffusion samplers are based on
deterministic ODEs. Recent work addresses this issue by using inefficient
SDE-based samplers to induce stochasticity, but this reliance on model-agnostic
Gaussian noise leads to slow convergence. To resolve this conflict, we propose
Direct Group Preference Optimization (DGPO), a new online RL algorithm that
dispenses with the policy-gradient framework entirely. DGPO learns directly
from group-level preferences, which utilize relative information of samples
within groups. This design eliminates the need for inefficient stochastic
policies, unlocking the use of efficient deterministic ODE samplers and faster
training. Extensive results show that DGPO trains around 20 times faster than
existing state-of-the-art methods and achieves superior performance on both
in-domain and out-of-domain reward metrics. Code is available at
https://github.com/Luo-Yihong/DGPO.