ChatPaper.aiChatPaper

직접 그룹 선호 최적화를 통한 확산 모델 강화

Reinforcing Diffusion Models by Direct Group Preference Optimization

October 9, 2025
저자: Yihong Luo, Tianyang Hu, Jing Tang
cs.AI

초록

Group Relative Preference Optimization(GRPO)와 같은 강화학습 방법론이 대규모 언어 모델(LLM)을 크게 개선시켰음에도 불구하고, 이를 확산 모델(diffusion model)에 적용하는 것은 여전히 어려운 과제로 남아 있습니다. 특히, GRPO는 확률적 정책(stochastic policy)을 요구하지만, 가장 비용 효율적인 확산 샘플러(diffusion sampler)는 결정론적 ODE(Ordinary Differential Equation)에 기반하고 있습니다. 최근 연구에서는 확률성을 유도하기 위해 비효율적인 SDE(Stochastic Differential Equation) 기반 샘플러를 사용함으로써 이 문제를 해결하려고 시도했지만, 모델에 구애받지 않는 가우시안 노이즈(Gaussian noise)에 의존하기 때문에 수렴 속도가 느리다는 한계가 있습니다. 이러한 문제를 해결하기 위해, 우리는 정책 경사(policy-gradient) 프레임워크를 완전히 배제한 새로운 온라인 강화학습 알고리즘인 Direct Group Preference Optimization(DGPO)을 제안합니다. DGPO는 그룹 내 샘플들의 상대적 정보를 활용하는 그룹 수준의 선호도(group-level preference)로부터 직접 학습합니다. 이러한 설계는 비효율적인 확률적 정책의 필요성을 제거함으로써, 효율적인 결정론적 ODE 샘플러의 사용과 더 빠른 학습을 가능하게 합니다. 광범위한 실험 결과에 따르면, DGPO는 기존의 최첨단 방법론보다 약 20배 빠르게 학습하며, 도메인 내(in-domain) 및 도메인 외(out-of-domain) 보상 지표에서 모두 우수한 성능을 달성합니다. 코드는 https://github.com/Luo-Yihong/DGPO에서 확인할 수 있습니다.
English
While reinforcement learning methods such as Group Relative Preference Optimization (GRPO) have significantly enhanced Large Language Models, adapting them to diffusion models remains challenging. In particular, GRPO demands a stochastic policy, yet the most cost-effective diffusion samplers are based on deterministic ODEs. Recent work addresses this issue by using inefficient SDE-based samplers to induce stochasticity, but this reliance on model-agnostic Gaussian noise leads to slow convergence. To resolve this conflict, we propose Direct Group Preference Optimization (DGPO), a new online RL algorithm that dispenses with the policy-gradient framework entirely. DGPO learns directly from group-level preferences, which utilize relative information of samples within groups. This design eliminates the need for inefficient stochastic policies, unlocking the use of efficient deterministic ODE samplers and faster training. Extensive results show that DGPO trains around 20 times faster than existing state-of-the-art methods and achieves superior performance on both in-domain and out-of-domain reward metrics. Code is available at https://github.com/Luo-Yihong/DGPO.
PDF82October 10, 2025