TempFlow-GRPO: フローモデルにおけるGRPOのタイミングが重要な場合
TempFlow-GRPO: When Timing Matters for GRPO in Flow Models
August 6, 2025
著者: Xiaoxuan He, Siming Fu, Yuke Zhao, Wanli Li, Jian Yang, Dacheng Yin, Fengyun Rao, Bo Zhang
cs.AI
要旨
最近のテキストから画像生成のためのフローマッチングモデルは、驚くべき品質を達成していますが、人間の嗜好に合わせるための強化学習との統合は最適とは言えず、細かい報酬ベースの最適化を妨げています。我々は、フローモデルの効果的なGRPO(Gradient-based Reward Policy Optimization)トレーニングに対する主要な障害が、既存のアプローチにおける時間的均一性の仮定にあることを観察しました。均一な信用割り当てを持つ疎な終端報酬は、生成タイムステップ全体での意思決定の重要性の変化を捉えることができず、非効率的な探索と最適でない収束を引き起こします。この欠点を補うために、我々はTempFlow-GRPO(Temporal Flow GRPO)を導入します。これは、フローベースの生成に内在する時間的構造を捉え、活用する原則的なGRPOフレームワークです。TempFlow-GRPOは、2つの主要な革新を導入します:(i) 指定された分岐点に確率性を集中させることでプロセス報酬を提供する軌道分岐メカニズムであり、専門的な中間報酬モデルを必要とせずに正確な信用割り当てを可能にします;(ii) 各タイムステップの内在的な探索可能性に応じてポリシー最適化を調整するノイズ認識重み付けスキームであり、影響の大きい初期段階での学習を優先しつつ、後期段階での安定した洗練を保証します。これらの革新により、モデルは基礎となる生成ダイナミクスを尊重する時間的認識最適化を備え、人間の嗜好の整合性と標準的なテキストから画像のベンチマークにおいて最先端の性能を達成します。
English
Recent flow matching models for text-to-image generation have achieved
remarkable quality, yet their integration with reinforcement learning for human
preference alignment remains suboptimal, hindering fine-grained reward-based
optimization. We observe that the key impediment to effective GRPO training of
flow models is the temporal uniformity assumption in existing approaches:
sparse terminal rewards with uniform credit assignment fail to capture the
varying criticality of decisions across generation timesteps, resulting in
inefficient exploration and suboptimal convergence. To remedy this shortcoming,
we introduce TempFlow-GRPO (Temporal Flow GRPO), a principled GRPO
framework that captures and exploits the temporal structure inherent in
flow-based generation. TempFlow-GRPO introduces two key innovations: (i) a
trajectory branching mechanism that provides process rewards by concentrating
stochasticity at designated branching points, enabling precise credit
assignment without requiring specialized intermediate reward models; and (ii) a
noise-aware weighting scheme that modulates policy optimization according to
the intrinsic exploration potential of each timestep, prioritizing learning
during high-impact early stages while ensuring stable refinement in later
phases. These innovations endow the model with temporally-aware optimization
that respects the underlying generative dynamics, leading to state-of-the-art
performance in human preference alignment and standard text-to-image
benchmarks.