Aliviando las Recompensas Dispersas mediante el Modelado de Efectos de Muestreo Paso a Paso y a Largo Plazo en GRPO Basado en Flujo
Alleviating Sparse Rewards by Modeling Step-Wise and Long-Term Sampling Effects in Flow-Based GRPO
February 6, 2026
Autores: Yunze Tong, Mushui Liu, Canyu Zhao, Wanggui He, Shiyi Zhang, Hongwei Zhang, Peng Zhang, Jinlong Liu, Ju Huang, Jiamang Wang, Hao Jiang, Pipei Huang
cs.AI
Resumen
La implementación de GRPO en modelos de Flow Matching ha demostrado ser eficaz para la generación de texto a imagen. Sin embargo, los paradigmas existentes suelen propagar una recompensa basada en el resultado a todos los pasos de eliminación de ruido precedentes, sin distinguir el efecto local de cada paso. Además, la clasificación grupal actual compara principalmente trayectorias en pasos de tiempo emparejados e ignora las dependencias dentro de la trayectoria, donde ciertas acciones tempranas de eliminación de ruido pueden afectar a estados posteriores mediante interacciones implícitas y retardadas. Proponemos TurningPoint-GRPO (TP-GRPO), un marco GRPO que alivia la dispersión de recompensas a nivel de paso y modela explícitamente los efectos a largo plazo dentro de la trayectoria de eliminación de ruido. TP-GRPO introduce dos innovaciones clave: (i) sustituye las recompensas basadas en resultados por recompensas incrementales a nivel de paso, proporcionando una señal de aprendizaje densa y consciente del paso que aísla mejor el efecto "puro" de cada acción de eliminación de ruido, y (ii) identifica puntos de inflexión (pasos que invierten la tendencia de recompensa local y hacen que la evolución posterior de la recompensa sea consistente con la tendencia general de la trayectoria) y asigna a estas acciones una recompensa agregada a largo plazo para capturar su impacto retardado. Los puntos de inflexión se detectan únicamente mediante cambios de signo en las recompensas incrementales, lo que hace que TP-GRPO sea eficiente y libre de hiperparámetros. Experimentos exhaustivos también demuestran que TP-GRPO aprovecha las señales de recompensa de manera más efectiva y mejora consistentemente la generación. El código de demostración está disponible en https://github.com/YunzeTong/TurningPoint-GRPO.
English
Deploying GRPO on Flow Matching models has proven effective for text-to-image generation. However, existing paradigms typically propagate an outcome-based reward to all preceding denoising steps without distinguishing the local effect of each step. Moreover, current group-wise ranking mainly compares trajectories at matched timesteps and ignores within-trajectory dependencies, where certain early denoising actions can affect later states via delayed, implicit interactions. We propose TurningPoint-GRPO (TP-GRPO), a GRPO framework that alleviates step-wise reward sparsity and explicitly models long-term effects within the denoising trajectory. TP-GRPO makes two key innovations: (i) it replaces outcome-based rewards with step-level incremental rewards, providing a dense, step-aware learning signal that better isolates each denoising action's "pure" effect, and (ii) it identifies turning points-steps that flip the local reward trend and make subsequent reward evolution consistent with the overall trajectory trend-and assigns these actions an aggregated long-term reward to capture their delayed impact. Turning points are detected solely via sign changes in incremental rewards, making TP-GRPO efficient and hyperparameter-free. Extensive experiments also demonstrate that TP-GRPO exploits reward signals more effectively and consistently improves generation. Demo code is available at https://github.com/YunzeTong/TurningPoint-GRPO.