TempFlow-GRPO : Quand le timing compte pour GRPO dans les modèles de flux
TempFlow-GRPO: When Timing Matters for GRPO in Flow Models
August 6, 2025
papers.authors: Xiaoxuan He, Siming Fu, Yuke Zhao, Wanli Li, Jian Yang, Dacheng Yin, Fengyun Rao, Bo Zhang
cs.AI
papers.abstract
Les récents modèles de correspondance de flux pour la génération d'images à partir de texte ont atteint une qualité remarquable, mais leur intégration avec l'apprentissage par renforcement pour l'alignement sur les préférences humaines reste sous-optimale, entravant l'optimisation fine basée sur les récompenses. Nous observons que le principal obstacle à un entraînement efficace des modèles de flux par GRPO (Gradient-based Reward Policy Optimization) est l'hypothèse d'uniformité temporelle dans les approches existantes : les récompenses terminales éparses avec une attribution de crédit uniforme ne parviennent pas à capturer la criticité variable des décisions à travers les étapes de génération, entraînant une exploration inefficace et une convergence sous-optimale. Pour remédier à cette lacune, nous introduisons TempFlow-GRPO (Temporal Flow GRPO), un cadre GRPO fondé qui capture et exploite la structure temporelle inhérente à la génération basée sur les flux. TempFlow-GRPO introduit deux innovations clés : (i) un mécanisme de branchement de trajectoire qui fournit des récompenses de processus en concentrant la stochasticité à des points de branchement désignés, permettant une attribution de crédit précise sans nécessiter de modèles de récompense intermédiaires spécialisés ; et (ii) un schéma de pondération sensible au bruit qui module l'optimisation de la politique en fonction du potentiel d'exploration intrinsèque de chaque étape temporelle, priorisant l'apprentissage lors des étapes initiales à fort impact tout en assurant un affinement stable dans les phases ultérieures. Ces innovations dotent le modèle d'une optimisation temporellement consciente qui respecte la dynamique générative sous-jacente, conduisant à des performances de pointe dans l'alignement sur les préférences humaines et les benchmarks standards de génération d'images à partir de texte.
English
Recent flow matching models for text-to-image generation have achieved
remarkable quality, yet their integration with reinforcement learning for human
preference alignment remains suboptimal, hindering fine-grained reward-based
optimization. We observe that the key impediment to effective GRPO training of
flow models is the temporal uniformity assumption in existing approaches:
sparse terminal rewards with uniform credit assignment fail to capture the
varying criticality of decisions across generation timesteps, resulting in
inefficient exploration and suboptimal convergence. To remedy this shortcoming,
we introduce TempFlow-GRPO (Temporal Flow GRPO), a principled GRPO
framework that captures and exploits the temporal structure inherent in
flow-based generation. TempFlow-GRPO introduces two key innovations: (i) a
trajectory branching mechanism that provides process rewards by concentrating
stochasticity at designated branching points, enabling precise credit
assignment without requiring specialized intermediate reward models; and (ii) a
noise-aware weighting scheme that modulates policy optimization according to
the intrinsic exploration potential of each timestep, prioritizing learning
during high-impact early stages while ensuring stable refinement in later
phases. These innovations endow the model with temporally-aware optimization
that respects the underlying generative dynamics, leading to state-of-the-art
performance in human preference alignment and standard text-to-image
benchmarks.