E-GRPO: Высокоэнтропийные шаги как драйвер эффективного обучения с подкреплением для потоковых моделей
E-GRPO: High Entropy Steps Drive Effective Reinforcement Learning for Flow Models
January 1, 2026
Авторы: Shengjun Zhang, Zhang Zhang, Chensheng Dai, Yueqi Duan
cs.AI
Аннотация
В последних достижениях в области обучения с подкреплением были усовершенствованы модели согласования потоков для соответствия человеческим предпочтениям. Хотя стохастическая выборка позволяет исследовать направления денойзинга, существующие методы, оптимизирующие несколько шагов удаления шума, страдают от разреженных и неоднозначных сигналов вознаграждения. Мы наблюдаем, что шаги с высокой энтропией обеспечивают более эффективное исследование, тогда как шаги с низкой энтропией приводят к неразличимым траекториям. В связи с этим мы предлагаем E-GRPO — оптимизацию групповой относительной политики с учетом энтропии для увеличения энтропии шагов стохастической дифференциальной выборки. Поскольку интегрирование стохастических дифференциальных уравнений страдает от неоднозначных сигналов вознаграждения из-за стохастичности множественных шагов, мы объединяем последовательные шаги с низкой энтропией в один шаг с высокой энтропией для SDE-выборки, применяя ODE-выборку на остальных шагах. На этой основе мы вводим многошаговое групповое нормированное преимущество, которое вычисляет групповые относительные преимущества внутри выборок, разделяющих один и тот же консолидированный шаг SDE-денойзинга. Результаты экспериментов в различных условиях вознаграждения подтвердили эффективность нашего метода.
English
Recent reinforcement learning has enhanced the flow matching models on human preference alignment. While stochastic sampling enables the exploration of denoising directions, existing methods which optimize over multiple denoising steps suffer from sparse and ambiguous reward signals. We observe that the high entropy steps enable more efficient and effective exploration while the low entropy steps result in undistinguished roll-outs. To this end, we propose E-GRPO, an entropy aware Group Relative Policy Optimization to increase the entropy of SDE sampling steps. Since the integration of stochastic differential equations suffer from ambiguous reward signals due to stochasticity from multiple steps, we specifically merge consecutive low entropy steps to formulate one high entropy step for SDE sampling, while applying ODE sampling on other steps. Building upon this, we introduce multi-step group normalized advantage, which computes group-relative advantages within samples sharing the same consolidated SDE denoising step. Experimental results on different reward settings have demonstrated the effectiveness of our methods.