ChatPaper.aiChatPaper

ビデオ生成における強化学習のための多様体対応探索

Manifold-Aware Exploration for Reinforcement Learning in Video Generation

March 23, 2026
著者: Mingzhe Zheng, Weijie Kong, Yue Wu, Dengyang Jiang, Yue Ma, Xuanhua He, Bin Lin, Kaixiong Gong, Zhao Zhong, Liefeng Bo, Qifeng Chen, Harry Yang
cs.AI

要旨

動画生成におけるGroup Relative Policy Optimization(GRPO)手法、例えばFlowGRPOは、言語モデルや画像向けの手法と比較して、依然として信頼性が大幅に低い。この隔たりは、動画生成が複雑な解空間を持ち、探索に用いられるODEからSDEへの変換が過剰なノイズを注入することで、ロールアウトの品質を低下させ、報酬推定の信頼性を損ない、学習後のアライメントを不安定にするために生じる。この問題に対処するため、我々は事前学習済みモデルが有効な動画データ多様体を定義していると見なし、探索をこの多様体の近傍に制限することが核心的な問題であると定式化する。これにより、ロールアウトの品質が維持され、報酬推定の信頼性が保たれる。我々はSAGE-GRPO(Stable Alignment via Exploration)を提案する。これはミクロレベルとマクロレベルの両方で制約を適用する。ミクロレベルでは、対数曲率補正を伴う精密な多様体考慮型SDEを導出し、タイムステップ間のサンプリングと更新を安定化するための勾配ノルム均等化器を導入する。マクロレベルでは、周期的に移動するアンカーと段階的制約を備えた二重信頼領域を用いることで、信頼領域が多様体に近いチェックポイントを追跡し、長期的なドリフトを抑制する。我々はSAGE-GRPOをHunyuanVideo1.5で評価し、元のVideoAlignを報酬モデルとして使用した。VQ、MQ、TA、および視覚的指標(CLIPScore、PickScore)において、従来手法を一貫して上回る改善を観察し、報酬最大化と全体的な動画品質の両方で優れた性能を示す。コードとビジュアルギャラリーはhttps://dungeonmassster.github.io/SAGE-GRPO-Page/で公開されている。
English
Group Relative Policy Optimization (GRPO) methods for video generation like FlowGRPO remain far less reliable than their counterparts for language models and images. This gap arises because video generation has a complex solution space, and the ODE-to-SDE conversion used for exploration can inject excess noise, lowering rollout quality and making reward estimates less reliable, which destabilizes post-training alignment. To address this problem, we view the pre-trained model as defining a valid video data manifold and formulate the core problem as constraining exploration within the vicinity of this manifold, ensuring that rollout quality is preserved and reward estimates remain reliable. We propose SAGE-GRPO (Stable Alignment via Exploration), which applies constraints at both micro and macro levels. At the micro level, we derive a precise manifold-aware SDE with a logarithmic curvature correction and introduce a gradient norm equalizer to stabilize sampling and updates across timesteps. At the macro level, we use a dual trust region with a periodic moving anchor and stepwise constraints so that the trust region tracks checkpoints that are closer to the manifold and limits long-horizon drift. We evaluate SAGE-GRPO on HunyuanVideo1.5 using the original VideoAlign as the reward model and observe consistent gains over previous methods in VQ, MQ, TA, and visual metrics (CLIPScore, PickScore), demonstrating superior performance in both reward maximization and overall video quality. The code and visual gallery are available at https://dungeonmassster.github.io/SAGE-GRPO-Page/.
PDF322March 25, 2026