FFP-300K:一般化可能なビデオ編集のためのファーストフレーム伝播のスケーリング
FFP-300K: Scaling First-Frame Propagation for Generalizable Video Editing
January 5, 2026
著者: Xijie Huang, Chengming Xu, Donghao Luo, Xiaobin Hu, Peng Tang, Xu Peng, Jiangning Zhang, Chengjie Wang, Yanwei Fu
cs.AI
要旨
First-Frame Propagation (FFP) は制御可能な映像編集における有望なパラダイムであるが、既存手法は煩雑な実行時ガイダンスへの依存に阻まれている。我々は、この制限の根本原因が、現在の学習データセットの不備にあると考える。既存データセットは短すぎる、解像度が低い、頑健な時間的プライアを学習させるのに必要なタスク多様性に欠ける、といった問題を抱えている。この根本的なデータギャップを解決するため、我々はまずFFP-300Kを提案する。これは、多様な局所的・大域的編集のための原理に基づいた2トラックパイプラインで構築された、720p解像度・81フレーム長の30万の高精細映像ペアからなる新たな大規模データセットである。このデータセットに基づき、我々は、ファーストフレームの外観維持とソース映像の動き保存の間の重要な緊張関係を解決する、真のガイダンス不要FFPのための新規フレームワークを提案する。アーキテクチャ面では、Adaptive Spatio-Temporal RoPE (AST-RoPE) を導入し、位置エンコーディングを動的に再マッピングすることで外観参照と動き参照を分離する。目的関数レベルでは、恒等伝播タスクが強力な正則化器として機能する自己蒸留戦略を採用し、長期的な時間的安定性を確保し意味的ドリフトを防止する。EditVerseBenchベンチマークにおける総合的な実験により、本手法が既存の学術モデル及び商用モデルを大幅に上回り、PickScoreで約0.2、VLMスコアで約0.3の改善を示すことを実証した。
English
First-Frame Propagation (FFP) offers a promising paradigm for controllable video editing, but existing methods are hampered by a reliance on cumbersome run-time guidance. We identify the root cause of this limitation as the inadequacy of current training datasets, which are often too short, low-resolution, and lack the task diversity required to teach robust temporal priors. To address this foundational data gap, we first introduce FFP-300K, a new large-scale dataset comprising 300K high-fidelity video pairs at 720p resolution and 81 frames in length, constructed via a principled two-track pipeline for diverse local and global edits. Building on this dataset, we propose a novel framework designed for true guidance-free FFP that resolves the critical tension between maintaining first-frame appearance and preserving source video motion. Architecturally, we introduce Adaptive Spatio-Temporal RoPE (AST-RoPE), which dynamically remaps positional encodings to disentangle appearance and motion references. At the objective level, we employ a self-distillation strategy where an identity propagation task acts as a powerful regularizer, ensuring long-term temporal stability and preventing semantic drift. Comprehensive experiments on the EditVerseBench benchmark demonstrate that our method significantly outperforming existing academic and commercial models by receiving about 0.2 PickScore and 0.3 VLM score improvement against these competitors.