SAMA: Ancoraggio Semantico Fattorizzato e Allineamento del Movimento per l'Editing Video Guidato da Istruzioni

Abstract

I modelli correnti di editing video guidati da istruzioni faticano a bilanciare simultaneamente modifiche semantiche precise con una fedele preservazione del movimento. Sebbene gli approcci esistenti si basino sull'iniezione di priori esterni espliciti (ad esempio, feature VLM o condizioni strutturali) per mitigare questi problemi, questa dipendenza limita severamente la robustezza e la generalizzazione del modello. Per superare questa limitazione, presentiamo SAMA (factorized Semantic Anchoring and Motion Alignment), un framework che scompone l'editing video in ancoraggio semantico e modellazione del movimento. In primo luogo, introduciamo l'Ancoraggio Semantico (Semantic Anchoring), che stabilisce un'ancora visiva affidabile prevedendo congiuntamente token semantici e latenti video su frame di ancoraggio sparsi, abilitando una pianificazione strutturale puramente consapevole delle istruzioni. In secondo luogo, l'Allineamento del Movimento (Motion Alignment) pre-addestra lo stesso backbone su task pretestuali di restauro video centrati sul movimento (inpainting cubico, perturbazione della velocità e tube shuffle), permettendo al modello di internalizzare le dinamiche temporali direttamente dai video grezzi. SAMA è ottimizzato con una pipeline a due stadi: uno stadio di pre-addestramento fattorizzato che apprende rappresentazioni semantiche e di movimento intrinseche senza dati di editing video-istruzione accoppiati, seguito da un fine-tuning supervisionato su dati di editing accoppiati. Notevolmente, il solo pre-addestramento fattorizzato produce già una forte capacità di editing video zero-shot, validando la fattorizzazione proposta. SAMA raggiunge prestazioni state-of-the-art tra i modelli open-source ed è competitivo con i principali sistemi commerciali (ad esempio, Kling-Omni). Codice, modelli e dataset saranno rilasciati.

English

Current instruction-guided video editing models struggle to simultaneously balance precise semantic modifications with faithful motion preservation. While existing approaches rely on injecting explicit external priors (e.g., VLM features or structural conditions) to mitigate these issues, this reliance severely bottlenecks model robustness and generalization. To overcome this limitation, we present SAMA (factorized Semantic Anchoring and Motion Alignment), a framework that factorizes video editing into semantic anchoring and motion modeling. First, we introduce Semantic Anchoring, which establishes a reliable visual anchor by jointly predicting semantic tokens and video latents at sparse anchor frames, enabling purely instruction-aware structural planning. Second, Motion Alignment pre-trains the same backbone on motion-centric video restoration pretext tasks (cube inpainting, speed perturbation, and tube shuffle), enabling the model to internalize temporal dynamics directly from raw videos. SAMA is optimized with a two-stage pipeline: a factorized pre-training stage that learns inherent semantic-motion representations without paired video-instruction editing data, followed by supervised fine-tuning on paired editing data. Remarkably, the factorized pre-training alone already yields strong zero-shot video editing ability, validating the proposed factorization. SAMA achieves state-of-the-art performance among open-source models and is competitive with leading commercial systems (e.g., Kling-Omni). Code, models, and datasets will be released.

SAMA: Ancoraggio Semantico Fattorizzato e Allineamento del Movimento per l'Editing Video Guidato da Istruzioni

SAMA: Factorized Semantic Anchoring and Motion Alignment for Instruction-Guided Video Editing

Abstract

Support