Linderung spärlicher Belohnungen durch Modellierung schrittweiser und langfristiger Sampling-Effekte in flussbasiertem GRPO
Alleviating Sparse Rewards by Modeling Step-Wise and Long-Term Sampling Effects in Flow-Based GRPO
February 6, 2026
papers.authors: Yunze Tong, Mushui Liu, Canyu Zhao, Wanggui He, Shiyi Zhang, Hongwei Zhang, Peng Zhang, Jinlong Liu, Ju Huang, Jiamang Wang, Hao Jiang, Pipei Huang
cs.AI
papers.abstract
Die Anwendung von GRPO auf Flow-Matching-Modelle hat sich für die Text-zu-Bild-Generierung als wirksam erwiesen. Bisherige Paradigmen propagieren jedoch typischerweise eine ergebnisbasierte Belohnung über alle vorhergehenden Denoising-Schritte hinweg, ohne die lokale Wirkung jedes Schrittes zu unterscheiden. Darüber hinaus vergleicht das aktuelle gruppenweise Ranking hauptsächlich Trajektorien zu gleichen Zeitpunkten und ignoriert Abhängigkeiten innerhalb der Trajektorie, bei denen bestimmte frühe Denoising-Aktionen spätere Zustände über verzögerte, implizite Interaktionen beeinflussen können. Wir schlagen TurningPoint-GRPO (TP-GRPO) vor, ein GRPO-Framework, das die schrittweise Belohnungssparsität verringert und Langzeiteffekte innerhalb der Denoising-Trajektorie explizit modelliert. TP-GRPO führt zwei wesentliche Innovationen ein: (i) Es ersetzt ergebnisbasierte Belohnungen durch schrittweise inkrementelle Belohnungen, die ein dichtes, schrittbewusstes Lernsignal bereitstellen und so die "reine" Wirkung jeder Denoising-Aktion besser isolieren, und (ii) es identifiziert Wendepunkte – Schritte, die den lokalen Belohnungstrend umkehren und die nachfolgende Belohnungsentwicklung mit dem Gesamttrend der Trajektorie in Einklang bringen – und weist diesen Aktionen eine aggregierte Langzeitbelohnung zu, um ihre verzögerte Wirkung zu erfassen. Wendepunkte werden ausschließlich über Vorzeichenwechsel in den inkrementellen Belohnungen erkannt, was TP-GRPO effizient und hyperparameterfrei macht. Umfangreiche Experimente belegen zudem, dass TP-GRPO Belohnungssignale effektiver nutzt und die Generierung konsistent verbessert. Democode ist verfügbar unter https://github.com/YunzeTong/TurningPoint-GRPO.
English
Deploying GRPO on Flow Matching models has proven effective for text-to-image generation. However, existing paradigms typically propagate an outcome-based reward to all preceding denoising steps without distinguishing the local effect of each step. Moreover, current group-wise ranking mainly compares trajectories at matched timesteps and ignores within-trajectory dependencies, where certain early denoising actions can affect later states via delayed, implicit interactions. We propose TurningPoint-GRPO (TP-GRPO), a GRPO framework that alleviates step-wise reward sparsity and explicitly models long-term effects within the denoising trajectory. TP-GRPO makes two key innovations: (i) it replaces outcome-based rewards with step-level incremental rewards, providing a dense, step-aware learning signal that better isolates each denoising action's "pure" effect, and (ii) it identifies turning points-steps that flip the local reward trend and make subsequent reward evolution consistent with the overall trajectory trend-and assigns these actions an aggregated long-term reward to capture their delayed impact. Turning points are detected solely via sign changes in incremental rewards, making TP-GRPO efficient and hyperparameter-free. Extensive experiments also demonstrate that TP-GRPO exploits reward signals more effectively and consistently improves generation. Demo code is available at https://github.com/YunzeTong/TurningPoint-GRPO.