TempFlow-GRPO: Quando il Tempismo è Cruciale per GRPO nei Modelli di Flusso
TempFlow-GRPO: When Timing Matters for GRPO in Flow Models
August 6, 2025
Autori: Xiaoxuan He, Siming Fu, Yuke Zhao, Wanli Li, Jian Yang, Dacheng Yin, Fengyun Rao, Bo Zhang
cs.AI
Abstract
I recenti modelli di flow matching per la generazione di immagini da testo hanno raggiunto una qualità notevole, ma la loro integrazione con l'apprendimento per rinforzo per l'allineamento alle preferenze umane rimane subottimale, ostacolando l'ottimizzazione basata su ricompense a grana fine. Osserviamo che il principale impedimento a un efficace addestramento GRPO dei modelli di flow è l'assunzione di uniformità temporale negli approcci esistenti: ricompense terminali sparse con assegnazione uniforme del credito non riescono a catturare la variabile criticità delle decisioni attraverso i passaggi temporali della generazione, risultando in un'esplorazione inefficiente e una convergenza subottimale. Per rimediare a questa carenza, introduciamo TempFlow-GRPO (Temporal Flow GRPO), un framework GRPO basato su principi che cattura e sfrutta la struttura temporale intrinseca nella generazione basata su flow. TempFlow-GRPO introduce due innovazioni chiave: (i) un meccanismo di ramificazione delle traiettorie che fornisce ricompense di processo concentrando la stocasticità in punti di ramificazione designati, consentendo un'assegnazione precisa del credito senza richiedere modelli di ricompensa intermedi specializzati; e (ii) uno schema di ponderazione consapevole del rumore che modula l'ottimizzazione della politica in base al potenziale intrinseco di esplorazione di ciascun passaggio temporale, dando priorità all'apprendimento durante le fasi iniziali ad alto impatto mentre garantisce un affinamento stabile nelle fasi successive. Queste innovazioni conferiscono al modello un'ottimizzazione temporalmente consapevole che rispetta le dinamiche generative sottostanti, portando a prestazioni all'avanguardia nell'allineamento alle preferenze umane e nei benchmark standard di generazione di immagini da testo.
English
Recent flow matching models for text-to-image generation have achieved
remarkable quality, yet their integration with reinforcement learning for human
preference alignment remains suboptimal, hindering fine-grained reward-based
optimization. We observe that the key impediment to effective GRPO training of
flow models is the temporal uniformity assumption in existing approaches:
sparse terminal rewards with uniform credit assignment fail to capture the
varying criticality of decisions across generation timesteps, resulting in
inefficient exploration and suboptimal convergence. To remedy this shortcoming,
we introduce TempFlow-GRPO (Temporal Flow GRPO), a principled GRPO
framework that captures and exploits the temporal structure inherent in
flow-based generation. TempFlow-GRPO introduces two key innovations: (i) a
trajectory branching mechanism that provides process rewards by concentrating
stochasticity at designated branching points, enabling precise credit
assignment without requiring specialized intermediate reward models; and (ii) a
noise-aware weighting scheme that modulates policy optimization according to
the intrinsic exploration potential of each timestep, prioritizing learning
during high-impact early stages while ensuring stable refinement in later
phases. These innovations endow the model with temporally-aware optimization
that respects the underlying generative dynamics, leading to state-of-the-art
performance in human preference alignment and standard text-to-image
benchmarks.