SAMA : Ancrage Sémantique Factorisé et Alignement du Mouvement pour l'Édition Vidéo Guidée par Instructions
SAMA: Factorized Semantic Anchoring and Motion Alignment for Instruction-Guided Video Editing
March 19, 2026
Auteurs: Xinyao Zhang, Wenkai Dong, Yuxin Song, Bo Fang, Qi Zhang, Jing Wang, Fan Chen, Hui Zhang, Haocheng Feng, Yu Lu, Hang Zhou, Chun Yuan, Jingdong Wang
cs.AI
Résumé
Les modèles actuels d'édition vidéo guidée par instructions peinent à concilier simultanément des modifications sémantiques précises et une préservation fidèle du mouvement. Bien que les approches existantes s'appuient sur l'injection de priors externes explicites (par exemple, des caractéristiques VLM ou des conditions structurelles) pour atténuer ces problèmes, cette dépendance limite sévèrement la robustesse et la généralisation des modèles. Pour surmonter cette limitation, nous présentons SAMA (Ancrage Sémantique factorisé et Alignement du Mouvement), un framework qui factorise l'édition vidéo en un ancrage sémantique et une modélisation du mouvement. Premièrement, nous introduisons l'Ancrage Sémantique, qui établit une ancre visuelle fiable en prédisant conjointement des tokens sémantiques et des latents vidéo sur des images d'ancrage éparses, permettant une planification structurelle purement sensible aux instructions. Deuxièmement, l'Alignement du Mouvement pré-entraîne le même backbone sur des tâches de prétexte de restauration vidéo centrées sur le mouvement (inpainting cubique, perturbation de vitesse et mélange de tubes), permettant au modèle d'intérioriser la dynamique temporelle directement à partir des vidéos brutes. SAMA est optimisé avec un pipeline en deux étapes : une phase de pré-entraînement factorisé qui apprend des représentations sémantique-mouvement intrinsèques sans données d'édition vidéo-instruction appariées, suivie d'un fine-tuning supervisé sur des données d'édition appariées. Fait remarquable, le pré-entraînement factorisé seul confère déjà une forte capacité d'édition vidéo zero-shot, validant la factorisation proposée. SAMA atteint des performances state-of-the-art parmi les modèles open-source et est compétitif avec les principaux systèmes commerciaux (par exemple, Kling-Omni). Le code, les modèles et les jeux de données seront publiés.
English
Current instruction-guided video editing models struggle to simultaneously balance precise semantic modifications with faithful motion preservation. While existing approaches rely on injecting explicit external priors (e.g., VLM features or structural conditions) to mitigate these issues, this reliance severely bottlenecks model robustness and generalization. To overcome this limitation, we present SAMA (factorized Semantic Anchoring and Motion Alignment), a framework that factorizes video editing into semantic anchoring and motion modeling. First, we introduce Semantic Anchoring, which establishes a reliable visual anchor by jointly predicting semantic tokens and video latents at sparse anchor frames, enabling purely instruction-aware structural planning. Second, Motion Alignment pre-trains the same backbone on motion-centric video restoration pretext tasks (cube inpainting, speed perturbation, and tube shuffle), enabling the model to internalize temporal dynamics directly from raw videos. SAMA is optimized with a two-stage pipeline: a factorized pre-training stage that learns inherent semantic-motion representations without paired video-instruction editing data, followed by supervised fine-tuning on paired editing data. Remarkably, the factorized pre-training alone already yields strong zero-shot video editing ability, validating the proposed factorization. SAMA achieves state-of-the-art performance among open-source models and is competitive with leading commercial systems (e.g., Kling-Omni). Code, models, and datasets will be released.