E-GRPO : Les étapes à haute entropie pilotent un apprentissage par renforcement efficace pour les modèles de flux
E-GRPO: High Entropy Steps Drive Effective Reinforcement Learning for Flow Models
January 1, 2026
papers.authors: Shengjun Zhang, Zhang Zhang, Chensheng Dai, Yueqi Duan
cs.AI
papers.abstract
Les récents progrès en apprentissage par renforcement ont amélioré les modèles de couplage de flux pour l'alignement sur les préférences humaines. Bien que l'échantillonnage stochastique permette l'exploration des directions de débruitage, les méthodes existantes qui optimisent sur plusieurs étapes de débruitage souffrent de signaux de récompense clairsemés et ambigus. Nous observons que les étapes à haute entropie permettent une exploration plus efficace, tandis que les étapes à faible entropie produisent des déroulements indistincts. Pour cela, nous proposons E-GRPO, une optimisation de politique relative par groupe sensible à l'entropie, afin d'augmenter l'entropie des étapes d'échantillonnage par EDS. Étant donné que l'intégration d'équations différentielles stochastiques souffre de signaux de récompense ambigus dus à la stochasticité des étapes multiples, nous fusionnons spécifiquement les étapes consécutives à faible entropie pour formuler une étape à haute entropie pour l'échantillonnage EDS, tout en appliquant l'échantillonnage par EDO sur les autres étapes. Sur cette base, nous introduisons un avantage normalisé par groupe multi-étapes, qui calcule les avantages relatifs au sein des échantillons partageant la même étape consolidée de débruitage EDS. Les résultats expérimentaux sur différents cadres de récompense ont démontré l'efficacité de nos méthodes.
English
Recent reinforcement learning has enhanced the flow matching models on human preference alignment. While stochastic sampling enables the exploration of denoising directions, existing methods which optimize over multiple denoising steps suffer from sparse and ambiguous reward signals. We observe that the high entropy steps enable more efficient and effective exploration while the low entropy steps result in undistinguished roll-outs. To this end, we propose E-GRPO, an entropy aware Group Relative Policy Optimization to increase the entropy of SDE sampling steps. Since the integration of stochastic differential equations suffer from ambiguous reward signals due to stochasticity from multiple steps, we specifically merge consecutive low entropy steps to formulate one high entropy step for SDE sampling, while applying ODE sampling on other steps. Building upon this, we introduce multi-step group normalized advantage, which computes group-relative advantages within samples sharing the same consolidated SDE denoising step. Experimental results on different reward settings have demonstrated the effectiveness of our methods.