Mitigazione delle Ricompense Sparse Modellando gli Effetti di Campionamento Graduale e a Lungo Termine nel GRPO Basato su Flussi

Abstract

L'implementazione di GRPO su modelli di Flow Matching si è dimostrata efficace per la generazione di testo-immagine. Tuttavia, i paradigmi esistenti tipicamente propagano una ricompensa basata sul risultato a tutti i passi di denoising precedenti senza distinguere l'effetto locale di ciascuno step. Inoltre, l'attuale ranking di tipo group-wise confronta principalmente le traiettorie a step temporali corrispondenti e ignora le dipendenze all'interno della traiettoria, dove certe azioni di denoishing iniziali possono influenzare stati successivi tramite interazioni ritardate e implicite. Proponiamo TurningPoint-GRPO (TP-GRPO), un framework GRPO che allevia la sparsità della ricompensa step-wise e modella esplicitamente gli effetti a lungo termine all'interno della traiettoria di denoising. TP-GRPO introduce due innovazioni chiave: (i) sostituisce le ricompense basate sul risultato con ricompense incrementali a livello di step, fornendo un segnale di apprendimento denso e consapevole dello step che isola meglio l'effetto "puro" di ogni azione di denoising, e (ii) identifica i punti di svolta (turning points) – step che invertono l'andamento della ricompensa locale e rendono l'evoluzione successiva della ricompensa coerente con l'andamento complessivo della traiettoria – e assegna a queste azioni una ricompensa aggregata a lungo termine per catturarne l'impatto ritardato. I punti di svolta sono rilevati esclusivamente tramite cambi di segno nelle ricompense incrementali, rendendo TP-GRPO efficiente e privo di iperparametri. Esperimenti estensivi dimostrano inoltre che TP-GRPO sfrutta i segnali di ricompensa in modo più efficace e migliora costantemente la generazione. Il codice demo è disponibile all'indirizzo https://github.com/YunzeTong/TurningPoint-GRPO.

English

Deploying GRPO on Flow Matching models has proven effective for text-to-image generation. However, existing paradigms typically propagate an outcome-based reward to all preceding denoising steps without distinguishing the local effect of each step. Moreover, current group-wise ranking mainly compares trajectories at matched timesteps and ignores within-trajectory dependencies, where certain early denoising actions can affect later states via delayed, implicit interactions. We propose TurningPoint-GRPO (TP-GRPO), a GRPO framework that alleviates step-wise reward sparsity and explicitly models long-term effects within the denoising trajectory. TP-GRPO makes two key innovations: (i) it replaces outcome-based rewards with step-level incremental rewards, providing a dense, step-aware learning signal that better isolates each denoising action's "pure" effect, and (ii) it identifies turning points-steps that flip the local reward trend and make subsequent reward evolution consistent with the overall trajectory trend-and assigns these actions an aggregated long-term reward to capture their delayed impact. Turning points are detected solely via sign changes in incremental rewards, making TP-GRPO efficient and hyperparameter-free. Extensive experiments also demonstrate that TP-GRPO exploits reward signals more effectively and consistently improves generation. Demo code is available at https://github.com/YunzeTong/TurningPoint-GRPO.

Mitigazione delle Ricompense Sparse Modellando gli Effetti di Campionamento Graduale e a Lungo Termine nel GRPO Basato su Flussi

Alleviating Sparse Rewards by Modeling Step-Wise and Long-Term Sampling Effects in Flow-Based GRPO

Abstract

Support