Atténuation des récompenses éparses par la modélisation des effets d'échantillonnage pas à pas et à long terme dans le GRPO basé sur les flux
Alleviating Sparse Rewards by Modeling Step-Wise and Long-Term Sampling Effects in Flow-Based GRPO
February 6, 2026
papers.authors: Yunze Tong, Mushui Liu, Canyu Zhao, Wanggui He, Shiyi Zhang, Hongwei Zhang, Peng Zhang, Jinlong Liu, Ju Huang, Jiamang Wang, Hao Jiang, Pipei Huang
cs.AI
papers.abstract
Le déploiement de GRPO sur les modèles de Flow Matching s'est avéré efficace pour la génération d'images à partir de texte. Cependant, les paradigmes existants propagent généralement une récompense basée sur le résultat à toutes les étapes de débruitage précédentes sans distinguer l'effet local de chaque étape. De plus, le classement par groupe actuel compare principalement les trajectoires à des pas de temps correspondants et ignore les dépendances intra-trajectoire, où certaines actions de débruitage précoces peuvent affecter les états ultérieurs via des interactions implicites et différées. Nous proposons TurningPoint-GRPO (TP-GRPO), un cadre GRPO qui atténue la parcimonie des récompenses étape par étape et modélise explicitement les effets à long terme au sein de la trajectoire de débruitage. TP-GRPO introduit deux innovations clés : (i) il remplace les récompenses basées sur le résultat par des récompenses incrémentales au niveau de l'étape, fournissant un signal d'apprentissage dense et conscient de l'étape qui isole mieux l'effet « pur » de chaque action de débruitage, et (ii) il identifie les points de retournement – des étapes qui inversent la tendance locale de récompense et rendent l'évolution ultérieure des récompenses cohérente avec la tendance globale de la trajectoire – et attribue à ces actions une récompense agrégée à long terme pour capturer leur impact différé. Les points de retournement sont détectés uniquement par des changements de signe dans les récompenses incrémentales, ce qui rend TP-GRPO efficace et sans hyperparamètre. Des expériences approfondies démontrent également que TP-GRPO exploite les signaux de récompense plus efficacement et améliore constamment la génération. Le code de démonstration est disponible à l'adresse https://github.com/YunzeTong/TurningPoint-GRPO.
English
Deploying GRPO on Flow Matching models has proven effective for text-to-image generation. However, existing paradigms typically propagate an outcome-based reward to all preceding denoising steps without distinguishing the local effect of each step. Moreover, current group-wise ranking mainly compares trajectories at matched timesteps and ignores within-trajectory dependencies, where certain early denoising actions can affect later states via delayed, implicit interactions. We propose TurningPoint-GRPO (TP-GRPO), a GRPO framework that alleviates step-wise reward sparsity and explicitly models long-term effects within the denoising trajectory. TP-GRPO makes two key innovations: (i) it replaces outcome-based rewards with step-level incremental rewards, providing a dense, step-aware learning signal that better isolates each denoising action's "pure" effect, and (ii) it identifies turning points-steps that flip the local reward trend and make subsequent reward evolution consistent with the overall trajectory trend-and assigns these actions an aggregated long-term reward to capture their delayed impact. Turning points are detected solely via sign changes in incremental rewards, making TP-GRPO efficient and hyperparameter-free. Extensive experiments also demonstrate that TP-GRPO exploits reward signals more effectively and consistently improves generation. Demo code is available at https://github.com/YunzeTong/TurningPoint-GRPO.