ChatPaper.aiChatPaper

E-GRPO: Los Pasos de Alta Entropía Impulsan el Aprendizaje por Refuerzo Efectivo para Modelos de Flujo

E-GRPO: High Entropy Steps Drive Effective Reinforcement Learning for Flow Models

January 1, 2026
Autores: Shengjun Zhang, Zhang Zhang, Chensheng Dai, Yueqi Duan
cs.AI

Resumen

Los recientes avances en aprendizaje por refuerzo han mejorado los modelos de ajuste de flujo en la alineación de preferencias humanas. Si bien el muestreo estocástico permite la exploración de direcciones de eliminación de ruido, los métodos existentes que optimizan múltiples pasos de desruido sufren de señales de recompensa dispersas y ambiguas. Observamos que los pasos de alta entropía permiten una exploración más eficiente y efectiva, mientras que los pasos de baja entropía generan desarrollos indistinguibles. Para abordar esto, proponemos E-GRPO, una Optimización de Política Relativa de Grupo con conciencia de entropía para aumentar la entropía de los pasos de muestreo de EDE. Dado que la integración de ecuaciones diferenciales estocásticas sufre de señales de recompensa ambiguas debido a la estocasticidad de múltiples pasos, fusionamos específicamente pasos consecutivos de baja entropía para formular un paso de alta entropía en el muestreo de EDE, mientras aplicamos muestreo de EDO en los demás pasos. Sobre esta base, introducimos la ventaja normalizada de grupo multi-paso, que calcula ventajas relativas al grupo dentro de muestras que comparten el mismo paso consolidado de desruido de EDE. Los resultados experimentales en diferentes configuraciones de recompensa han demostrado la efectividad de nuestros métodos.
English
Recent reinforcement learning has enhanced the flow matching models on human preference alignment. While stochastic sampling enables the exploration of denoising directions, existing methods which optimize over multiple denoising steps suffer from sparse and ambiguous reward signals. We observe that the high entropy steps enable more efficient and effective exploration while the low entropy steps result in undistinguished roll-outs. To this end, we propose E-GRPO, an entropy aware Group Relative Policy Optimization to increase the entropy of SDE sampling steps. Since the integration of stochastic differential equations suffer from ambiguous reward signals due to stochasticity from multiple steps, we specifically merge consecutive low entropy steps to formulate one high entropy step for SDE sampling, while applying ODE sampling on other steps. Building upon this, we introduce multi-step group normalized advantage, which computes group-relative advantages within samples sharing the same consolidated SDE denoising step. Experimental results on different reward settings have demonstrated the effectiveness of our methods.
PDF61January 9, 2026