ビデオ生成のための体系的なポストトレインフレームワーク
A Systematic Post-Train Framework for Video Generation
April 28, 2026
著者: Zeyue Xue, Siming Fu, Jie Huang, Shuai Lu, Haoran Li, Yijun Liu, Yuming Li, Xiaoxuan He, Mengzhao Chen, Haoyang Huang, Nan Duan, Ping Luo
cs.AI
要旨
大規模なビデオ拡散モデルは、高解像度で意味的に豊かなコンテンツを生成する印象的な能力を示しているが、プロンプトへの敏感性、時間的不一貫性、過大な推論コストといった重大な課題により、その事前学習時の性能と実世界での展開要件との間には依然として大きな隔たりが存在する。この隔たりを埋めるため、我々は包括的な学習後調整フレームワークを提案する。これは、4つの相補的な段階を通じて、事前学習済みモデルを体系的にユーザーの意図に合わせるものである:まず教師ありファインチューニング(SFT)を用いてベースモデルを安定した指示追従ポリシーへ変換し、続いてビデオ拡散に特化した新規のGroup Relative Policy Optimization(GRPO)手法を利用する人間フィードバック強化学習(RLHF)段階により、知覚品質と時間的一貫性を向上させる。その後、専門化された言語モデルによるプロンプト拡張を統合してユーザー入力を洗練し、最後に推論最適化を通じてシステム効率に対処する。これらの構成要素が一体となり、視覚的品質、時間的一貫性、指示追従性を向上させつつ、事前学習で獲得された制御性を維持する体系的なアプローチを提供する。その結果、実世界の展開において安定し、適応的で効果的な、スケーラブルな学習後調整パイプラインを構築するための実用的な設計図が得られる。大規模な実験により、この統一パイプラインが、一般的なアーティファクトを効果的に軽減し、厳格なサンプリングコスト制約を守りながら、制御性と視覚的美観を大幅に改善することが実証されている。
English
While large-scale video diffusion models have demonstrated impressive capabilities in generating high-resolution and semantically rich content, a significant gap remains between their pretraining performance and real-world deployment requirements due to critical issues such as prompt sensitivity, temporal inconsistency, and prohibitive inference costs. To bridge this gap, we propose a comprehensive post-training framework that systematically aligns pretrained models with user intentions through four synergistic stages: we first employ Supervised Fine-Tuning (SFT) to transform the base model into a stable instruction-following policy, followed by a Reinforcement Learning from Human Feedback (RLHF) stage that utilizes a novel Group Relative Policy Optimization (GRPO) method tailored for video diffusion to enhance perceptual quality and temporal coherence; subsequently, we integrate Prompt Enhancement via a specialized language model to refine user inputs, and finally address system efficiency through Inference Optimization. Together, these components provide a systematic approach to improving visual quality, temporal coherence, and instruction following, while preserving the controllability learned during pretraining. The result is a practical blueprint for building scalable post-training pipelines that are stable, adaptable, and effective in real-world deployment. Extensive experiments demonstrate that this unified pipeline effectively mitigates common artifacts and significantly improves controllability and visual aesthetics while adhering to strict sampling cost constraints.