Mitigazione delle Ricompense Sparse Modellando gli Effetti di Campionamento Graduale e a Lungo Termine nel GRPO Basato su Flussi
Alleviating Sparse Rewards by Modeling Step-Wise and Long-Term Sampling Effects in Flow-Based GRPO
February 6, 2026
Autori: Yunze Tong, Mushui Liu, Canyu Zhao, Wanggui He, Shiyi Zhang, Hongwei Zhang, Peng Zhang, Jinlong Liu, Ju Huang, Jiamang Wang, Hao Jiang, Pipei Huang
cs.AI
Abstract
L'implementazione di GRPO su modelli di Flow Matching si è dimostrata efficace per la generazione di testo-immagine. Tuttavia, i paradigmi esistenti tipicamente propagano una ricompensa basata sul risultato a tutti i passi di denoising precedenti senza distinguere l'effetto locale di ciascuno step. Inoltre, l'attuale ranking di tipo group-wise confronta principalmente le traiettorie a step temporali corrispondenti e ignora le dipendenze all'interno della traiettoria, dove certe azioni di denoishing iniziali possono influenzare stati successivi tramite interazioni ritardate e implicite. Proponiamo TurningPoint-GRPO (TP-GRPO), un framework GRPO che allevia la sparsità della ricompensa step-wise e modella esplicitamente gli effetti a lungo termine all'interno della traiettoria di denoising. TP-GRPO introduce due innovazioni chiave: (i) sostituisce le ricompense basate sul risultato con ricompense incrementali a livello di step, fornendo un segnale di apprendimento denso e consapevole dello step che isola meglio l'effetto "puro" di ogni azione di denoising, e (ii) identifica i punti di svolta (turning points) – step che invertono l'andamento della ricompensa locale e rendono l'evoluzione successiva della ricompensa coerente con l'andamento complessivo della traiettoria – e assegna a queste azioni una ricompensa aggregata a lungo termine per catturarne l'impatto ritardato. I punti di svolta sono rilevati esclusivamente tramite cambi di segno nelle ricompense incrementali, rendendo TP-GRPO efficiente e privo di iperparametri. Esperimenti estensivi dimostrano inoltre che TP-GRPO sfrutta i segnali di ricompensa in modo più efficace e migliora costantemente la generazione. Il codice demo è disponibile all'indirizzo https://github.com/YunzeTong/TurningPoint-GRPO.
English
Deploying GRPO on Flow Matching models has proven effective for text-to-image generation. However, existing paradigms typically propagate an outcome-based reward to all preceding denoising steps without distinguishing the local effect of each step. Moreover, current group-wise ranking mainly compares trajectories at matched timesteps and ignores within-trajectory dependencies, where certain early denoising actions can affect later states via delayed, implicit interactions. We propose TurningPoint-GRPO (TP-GRPO), a GRPO framework that alleviates step-wise reward sparsity and explicitly models long-term effects within the denoising trajectory. TP-GRPO makes two key innovations: (i) it replaces outcome-based rewards with step-level incremental rewards, providing a dense, step-aware learning signal that better isolates each denoising action's "pure" effect, and (ii) it identifies turning points-steps that flip the local reward trend and make subsequent reward evolution consistent with the overall trajectory trend-and assigns these actions an aggregated long-term reward to capture their delayed impact. Turning points are detected solely via sign changes in incremental rewards, making TP-GRPO efficient and hyperparameter-free. Extensive experiments also demonstrate that TP-GRPO exploits reward signals more effectively and consistently improves generation. Demo code is available at https://github.com/YunzeTong/TurningPoint-GRPO.