E-GRPO: Hoge-entropiestappen sturen effectieve reinforcement learning voor stromingsmodellen
E-GRPO: High Entropy Steps Drive Effective Reinforcement Learning for Flow Models
January 1, 2026
Auteurs: Shengjun Zhang, Zhang Zhang, Chensheng Dai, Yueqi Duan
cs.AI
Samenvatting
Recente ontwikkelingen in reinforcement learning hebben de flow matching-modellen voor afstemming op menselijke voorkeuren verbeterd. Hoewel stochastische bemonstering de verkenning van denoiseringsrichtingen mogelijk maakt, lijden bestaande methoden die optimalisatie over meerdere denoiseringsstappen uitvoeren onder schaarse en ambigue beloningssignalen. Wij observeren dat stappen met hoge entropie efficiëntere en effectievere verkenning mogelijk maken, terwijl stappen met lage entropie leiden tot weinig onderscheidende roll-outs. Daarom stellen wij E-GRPO voor, een entropy-aware Group Relative Policy Optimization, om de entropie van SDE-bemonsteringsstappen te verhogen. Omdat de integratie van stochastische differentiaalvergelijkingen te lijden heeft onder ambigue beloningssignalen door de stochasticiteit van meerdere stappen, voegen wij specifiek opeenvolgende stappen met lage entropie samen tot één stap met hoge entropie voor SDE-bemonstering, terwijl we ODE-bemonstering toepassen op de andere stappen. Hierop voortbordurend introduceren wij een genormaliseerd groepsvoordeel over meerdere stappen, dat groepsrelatieve voordelen berekent binnen steekproeven die dezelfde geconsolideerde SDE-denoiseringsstap delen. Experimentele resultaten in verschillende beloningssettings tonen de effectiviteit van onze methoden aan.
English
Recent reinforcement learning has enhanced the flow matching models on human preference alignment. While stochastic sampling enables the exploration of denoising directions, existing methods which optimize over multiple denoising steps suffer from sparse and ambiguous reward signals. We observe that the high entropy steps enable more efficient and effective exploration while the low entropy steps result in undistinguished roll-outs. To this end, we propose E-GRPO, an entropy aware Group Relative Policy Optimization to increase the entropy of SDE sampling steps. Since the integration of stochastic differential equations suffer from ambiguous reward signals due to stochasticity from multiple steps, we specifically merge consecutive low entropy steps to formulate one high entropy step for SDE sampling, while applying ODE sampling on other steps. Building upon this, we introduce multi-step group normalized advantage, which computes group-relative advantages within samples sharing the same consolidated SDE denoising step. Experimental results on different reward settings have demonstrated the effectiveness of our methods.