SAMA: 命令誘導型ビデオ編集のための因子分解的意味的アンカリングとモーションアライメント
SAMA: Factorized Semantic Anchoring and Motion Alignment for Instruction-Guided Video Editing
March 19, 2026
著者: Xinyao Zhang, Wenkai Dong, Yuxin Song, Bo Fang, Qi Zhang, Jing Wang, Fan Chen, Hui Zhang, Haocheng Feng, Yu Lu, Hang Zhou, Chun Yuan, Jingdong Wang
cs.AI
要旨
現在の指示文駆動型ビデオ編集モデルは、精密な意味論的変更と忠実な動きの保存を同時に達成することに課題を抱えています。既存のアプローチでは、これらの問題を緩和するために明示的な外部事前情報(VLM特徴量や構造的条件など)の注入に依存していますが、この依存性がモデルの頑健性と汎化性能の重大なボトルネックとなっています。この制限を克服するため、我々はSAMA(因子分解型セマンティックアンカリングとモーションアライメント)を提案します。このフレームワークは、ビデオ編集をセマンティックアンカリングとモーションモデリングに因子分解します。第一に、スパースなアンカーフレームにおいてセマンティックトークンとビデオ潜在変数を共同で予測することで信頼性の高い視覚的アンカーを確立するセマンティックアンカリングを導入し、純粋に指示文を意識した構造計画を可能にします。第二に、モーション中心のビデオ復元事前学習タスク(立方体インペインティング、速度摂動、チューブシャッフル)において同一のバックボーンを事前学習するモーションアライメントにより、モデルが生のビデオから直接時間的ダイナミクスを内在化できるようにします。SAMAは二段階パイプラインで最適化されます:ペアとなったビデオ-指示文編集データを必要とせず、内在的な意味-運動表現を学習する因子分解事前学習段階と、ペアデータによる教師ありファインチューニング段階です。特筆すべきは、因子分解事前学習のみで強力なゼロショットビデオ編集能力が得られ、提案する因子分解の有効性が実証されました。SAMAはオープンソースモデルの中で最先端の性能を達成し、主要な商用システム(Kling-Omniなど)にも匹敵する性能を示します。コード、モデル、データセットは公開予定です。
English
Current instruction-guided video editing models struggle to simultaneously balance precise semantic modifications with faithful motion preservation. While existing approaches rely on injecting explicit external priors (e.g., VLM features or structural conditions) to mitigate these issues, this reliance severely bottlenecks model robustness and generalization. To overcome this limitation, we present SAMA (factorized Semantic Anchoring and Motion Alignment), a framework that factorizes video editing into semantic anchoring and motion modeling. First, we introduce Semantic Anchoring, which establishes a reliable visual anchor by jointly predicting semantic tokens and video latents at sparse anchor frames, enabling purely instruction-aware structural planning. Second, Motion Alignment pre-trains the same backbone on motion-centric video restoration pretext tasks (cube inpainting, speed perturbation, and tube shuffle), enabling the model to internalize temporal dynamics directly from raw videos. SAMA is optimized with a two-stage pipeline: a factorized pre-training stage that learns inherent semantic-motion representations without paired video-instruction editing data, followed by supervised fine-tuning on paired editing data. Remarkably, the factorized pre-training alone already yields strong zero-shot video editing ability, validating the proposed factorization. SAMA achieves state-of-the-art performance among open-source models and is competitive with leading commercial systems (e.g., Kling-Omni). Code, models, and datasets will be released.