Reforçando Modelos de Difusão por Otimização Direta de Preferências de Grupo

Resumo

Embora métodos de aprendizado por reforço, como a Otimização de Preferência Relativa de Grupo (GRPO), tenham aprimorado significativamente os Modelos de Linguagem de Grande Escala (LLMs), adaptá-los a modelos de difusão continua sendo um desafio. Em particular, o GRPO exige uma política estocástica, enquanto os amostradores de difusão mais econômicos são baseados em EDOs determinísticas. Trabalhos recentes abordam essa questão utilizando amostradores baseados em EDEs, que são ineficientes, para induzir estocasticidade. No entanto, essa dependência de ruído gaussiano independente do modelo resulta em convergência lenta. Para resolver esse conflito, propomos a Otimização Direta de Preferência de Grupo (DGPO), um novo algoritmo de aprendizado por reforço online que dispensa completamente o framework de gradiente de política. O DGPO aprende diretamente a partir de preferências em nível de grupo, que utilizam informações relativas das amostras dentro dos grupos. Esse design elimina a necessidade de políticas estocásticas ineficientes, permitindo o uso de amostradores determinísticos de EDOs mais eficientes e um treinamento mais rápido. Resultados extensivos mostram que o DGPO treina aproximadamente 20 vezes mais rápido que os métodos state-of-the-art existentes e alcança desempenho superior tanto em métricas de recompensa dentro do domínio quanto fora dele. O código está disponível em https://github.com/Luo-Yihong/DGPO.

English

While reinforcement learning methods such as Group Relative Preference Optimization (GRPO) have significantly enhanced Large Language Models, adapting them to diffusion models remains challenging. In particular, GRPO demands a stochastic policy, yet the most cost-effective diffusion samplers are based on deterministic ODEs. Recent work addresses this issue by using inefficient SDE-based samplers to induce stochasticity, but this reliance on model-agnostic Gaussian noise leads to slow convergence. To resolve this conflict, we propose Direct Group Preference Optimization (DGPO), a new online RL algorithm that dispenses with the policy-gradient framework entirely. DGPO learns directly from group-level preferences, which utilize relative information of samples within groups. This design eliminates the need for inefficient stochastic policies, unlocking the use of efficient deterministic ODE samplers and faster training. Extensive results show that DGPO trains around 20 times faster than existing state-of-the-art methods and achieves superior performance on both in-domain and out-of-domain reward metrics. Code is available at https://github.com/Luo-Yihong/DGPO.

Reforçando Modelos de Difusão por Otimização Direta de Preferências de Grupo

Reinforcing Diffusion Models by Direct Group Preference Optimization

Resumo

Support