ChatPaper.aiChatPaper

E-GRPO: Hochgradig entropische Schritte ermöglichen effektives bestärkendes Lernen für Flussmodelle

E-GRPO: High Entropy Steps Drive Effective Reinforcement Learning for Flow Models

January 1, 2026
papers.authors: Shengjun Zhang, Zhang Zhang, Chensheng Dai, Yueqi Duan
cs.AI

papers.abstract

Aktuelle Fortschritte im Reinforcement Learning haben die Flow-Matching-Modelle hinsichtlich der Ausrichtung an menschlichen Präferenzen verbessert. Während stochastisches Sampling die Exploration von Denoising-Richtungen ermöglicht, leiden bestehende Methoden, die über mehrere Denoising-Schritte optimieren, unter spärlichen und mehrdeutigen Belohnungssignalen. Wir beobachten, dass Schritte mit hoher Entropie eine effizientere und effektivere Exploration ermöglichen, während Schritte mit niedriger Entropie zu undistinkten Roll-outs führen. Daher schlagen wir E-GRPO, eine entropiebewusste Gruppen-Relative-Policy-Optimierung vor, um die Entropie der SDE-Sampling-Schritte zu erhöhen. Da die Integration stochastischer Differentialgleichungen unter mehrdeutigen Belohnungssignalen aufgrund der Stochastizität über mehrere Schritte leidet, fusionieren wir gezielt aufeinanderfolgende Schritte mit niedriger Entropie zu einem Schritt mit hoher Entropie für das SDE-Sampling, während wir auf anderen Schritten ODE-Sampling anwenden. Darauf aufbauend führen wir einen gruppennormalisierten Mehrschritt-Vorteil ein, der gruppenrelative Vorteile innerhalb von Stichproben berechnet, die denselben konsolidierten SDE-Denoising-Schritt teilen. Experimentelle Ergebnisse in verschiedenen Belohnungsszenarien demonstrieren die Wirksamkeit unserer Methoden.
English
Recent reinforcement learning has enhanced the flow matching models on human preference alignment. While stochastic sampling enables the exploration of denoising directions, existing methods which optimize over multiple denoising steps suffer from sparse and ambiguous reward signals. We observe that the high entropy steps enable more efficient and effective exploration while the low entropy steps result in undistinguished roll-outs. To this end, we propose E-GRPO, an entropy aware Group Relative Policy Optimization to increase the entropy of SDE sampling steps. Since the integration of stochastic differential equations suffer from ambiguous reward signals due to stochasticity from multiple steps, we specifically merge consecutive low entropy steps to formulate one high entropy step for SDE sampling, while applying ODE sampling on other steps. Building upon this, we introduce multi-step group normalized advantage, which computes group-relative advantages within samples sharing the same consolidated SDE denoising step. Experimental results on different reward settings have demonstrated the effectiveness of our methods.
PDF61January 9, 2026