TempFlow-GRPO : Quand le timing compte pour GRPO dans les modèles de flux

papers.abstract

Les récents modèles de correspondance de flux pour la génération d'images à partir de texte ont atteint une qualité remarquable, mais leur intégration avec l'apprentissage par renforcement pour l'alignement sur les préférences humaines reste sous-optimale, entravant l'optimisation fine basée sur les récompenses. Nous observons que le principal obstacle à un entraînement efficace des modèles de flux par GRPO (Gradient-based Reward Policy Optimization) est l'hypothèse d'uniformité temporelle dans les approches existantes : les récompenses terminales éparses avec une attribution de crédit uniforme ne parviennent pas à capturer la criticité variable des décisions à travers les étapes de génération, entraînant une exploration inefficace et une convergence sous-optimale. Pour remédier à cette lacune, nous introduisons TempFlow-GRPO (Temporal Flow GRPO), un cadre GRPO fondé qui capture et exploite la structure temporelle inhérente à la génération basée sur les flux. TempFlow-GRPO introduit deux innovations clés : (i) un mécanisme de branchement de trajectoire qui fournit des récompenses de processus en concentrant la stochasticité à des points de branchement désignés, permettant une attribution de crédit précise sans nécessiter de modèles de récompense intermédiaires spécialisés ; et (ii) un schéma de pondération sensible au bruit qui module l'optimisation de la politique en fonction du potentiel d'exploration intrinsèque de chaque étape temporelle, priorisant l'apprentissage lors des étapes initiales à fort impact tout en assurant un affinement stable dans les phases ultérieures. Ces innovations dotent le modèle d'une optimisation temporellement consciente qui respecte la dynamique générative sous-jacente, conduisant à des performances de pointe dans l'alignement sur les préférences humaines et les benchmarks standards de génération d'images à partir de texte.

English

Recent flow matching models for text-to-image generation have achieved remarkable quality, yet their integration with reinforcement learning for human preference alignment remains suboptimal, hindering fine-grained reward-based optimization. We observe that the key impediment to effective GRPO training of flow models is the temporal uniformity assumption in existing approaches: sparse terminal rewards with uniform credit assignment fail to capture the varying criticality of decisions across generation timesteps, resulting in inefficient exploration and suboptimal convergence. To remedy this shortcoming, we introduce TempFlow-GRPO (Temporal Flow GRPO), a principled GRPO framework that captures and exploits the temporal structure inherent in flow-based generation. TempFlow-GRPO introduces two key innovations: (i) a trajectory branching mechanism that provides process rewards by concentrating stochasticity at designated branching points, enabling precise credit assignment without requiring specialized intermediate reward models; and (ii) a noise-aware weighting scheme that modulates policy optimization according to the intrinsic exploration potential of each timestep, prioritizing learning during high-impact early stages while ensuring stable refinement in later phases. These innovations endow the model with temporally-aware optimization that respects the underlying generative dynamics, leading to state-of-the-art performance in human preference alignment and standard text-to-image benchmarks.

TempFlow-GRPO : Quand le timing compte pour GRPO dans les modèles de flux

TempFlow-GRPO: When Timing Matters for GRPO in Flow Models

papers.abstract

Support