Aliviando Recompensas Esparsas por meio da Modelagem de Efeitos de Amostragem Passo a Passo e de Longo Prazo no GRPO Baseado em Fluxo

Resumo

A implementação do GRPO em modelos de Flow Matching tem se mostrado eficaz para geração de texto-imagem. No entanto, os paradigmas existentes normalmente propagam uma recompensa baseada em resultado para todas as etapas de desruído precedentes sem distinguir o efeito local de cada etapa. Além disso, o ranqueamento grupal atual compara principalmente trajetórias em intervalos de tempo correspondentes e ignora as dependências dentro da trajetória, onde certas ações iniciais de desruído podem afetar estados posteriores por meio de interações implícitas e atrasadas. Propomos o TurningPoint-GRPO (TP-GRPO), uma estrutura GRPO que alivia a esparsidade de recompensa passo a passo e modela explicitamente os efeitos de longo prazo dentro da trajetória de desruído. O TP-GRPO introduz duas inovações principais: (i) substitui as recompensas baseadas em resultado por recompensas incrementais em nível de etapa, fornecendo um sinal de aprendizado denso e consciente da etapa que melhor isola o efeito "puro" de cada ação de desruído, e (ii) identifica pontos de virada - etapas que invertem a tendência de recompensa local e tornam a evolução subsequente da recompensa consistente com a tendência geral da trajetória - e atribui a essas ações uma recompensa de longo prazo agregada para capturar seu impacto atrasado. Os pontos de virada são detectados apenas por meio de mudanças de sinal nas recompensas incrementais, tornando o TP-GRPO eficiente e livre de hiperparâmetros. Experimentos extensivos também demonstram que o TP-GRPO explota sinais de recompensa de forma mais eficaz e melhora consistentemente a geração. O código de demonstração está disponível em https://github.com/YunzeTong/TurningPoint-GRPO.

English

Deploying GRPO on Flow Matching models has proven effective for text-to-image generation. However, existing paradigms typically propagate an outcome-based reward to all preceding denoising steps without distinguishing the local effect of each step. Moreover, current group-wise ranking mainly compares trajectories at matched timesteps and ignores within-trajectory dependencies, where certain early denoising actions can affect later states via delayed, implicit interactions. We propose TurningPoint-GRPO (TP-GRPO), a GRPO framework that alleviates step-wise reward sparsity and explicitly models long-term effects within the denoising trajectory. TP-GRPO makes two key innovations: (i) it replaces outcome-based rewards with step-level incremental rewards, providing a dense, step-aware learning signal that better isolates each denoising action's "pure" effect, and (ii) it identifies turning points-steps that flip the local reward trend and make subsequent reward evolution consistent with the overall trajectory trend-and assigns these actions an aggregated long-term reward to capture their delayed impact. Turning points are detected solely via sign changes in incremental rewards, making TP-GRPO efficient and hyperparameter-free. Extensive experiments also demonstrate that TP-GRPO exploits reward signals more effectively and consistently improves generation. Demo code is available at https://github.com/YunzeTong/TurningPoint-GRPO.

Aliviando Recompensas Esparsas por meio da Modelagem de Efeitos de Amostragem Passo a Passo e de Longo Prazo no GRPO Baseado em Fluxo

Alleviating Sparse Rewards by Modeling Step-Wise and Long-Term Sampling Effects in Flow-Based GRPO

Resumo

Support