E-GRPO: 고엔트로피 단계가 유량 모델의 효과적 강화 학습을 주도한다
E-GRPO: High Entropy Steps Drive Effective Reinforcement Learning for Flow Models
January 1, 2026
저자: Shengjun Zhang, Zhang Zhang, Chensheng Dai, Yueqi Duan
cs.AI
초록
최근 강화 학습을 통해 인간 선호도 정렬에 관한 플로우 매칭 모델의 성능이 향상되었습니다. 확률적 샘플링은 디노이징 방향 탐색을 가능하게 하지만, 여러 디노이징 단계에 걸쳐 최적화를 수행하는 기존 방법들은 희소하고 모호한 보상 신호 문제에 직면해 있습니다. 우리는 높은 엔트로피 단계가 더 효율적이고 효과적인 탐색을 가능하게 하는 반면, 낮은 엔트로피 단계는 차별화되지 않은 롤아웃을 초래한다는 것을 관찰했습니다. 이를 위해 우리는 SDE 샘플링 단계의 엔트로피를 증가시키기 위한 엔트로피 인식 그룹 상대 정책 최적화(E-GRPO)를 제안합니다. 확률적 미분방정식의 통합은 여러 단계에서 비롯된 확률성으로 인해 모호한 보상 신호 문제를 겪기 때문에, 우리는 연속적인 낮은 엔트로피 단계를 통합하여 하나의 높은 엔트로피 SDE 샘플링 단계를 구성하는 동시에 나머지 단계에는 ODE 샘플링을 적용합니다. 이를 기반으로 동일한 통합 SDE 디노이징 단계를 공유하는 샘플 내에서 그룹 상대 이점을 계산하는 다단계 그룹 정규화 이점을 도입합니다. 다양한 보상 설정에서의 실험 결과는 우리 방법의 효과성을 입증하였습니다.
English
Recent reinforcement learning has enhanced the flow matching models on human preference alignment. While stochastic sampling enables the exploration of denoising directions, existing methods which optimize over multiple denoising steps suffer from sparse and ambiguous reward signals. We observe that the high entropy steps enable more efficient and effective exploration while the low entropy steps result in undistinguished roll-outs. To this end, we propose E-GRPO, an entropy aware Group Relative Policy Optimization to increase the entropy of SDE sampling steps. Since the integration of stochastic differential equations suffer from ambiguous reward signals due to stochasticity from multiple steps, we specifically merge consecutive low entropy steps to formulate one high entropy step for SDE sampling, while applying ODE sampling on other steps. Building upon this, we introduce multi-step group normalized advantage, which computes group-relative advantages within samples sharing the same consolidated SDE denoising step. Experimental results on different reward settings have demonstrated the effectiveness of our methods.