SAMA: Gefactoriseerd Semantisch Ankeren en Bewegingsuitlijning voor Instructiegestuurd Videobewerken

Samenvatting

Huidige instructiegestuurde videobewerkingsmodellen hebben moeite om precieze semantische aanpassingen te combineren met getrouwe bewegingsoverdracht. Hoewel bestaande methoden expliciete externe prioriteiten injecteren (zoals VLM-features of structurele condities) om deze problemen te verlichten, belemmert deze afhankelijkheid de robuustheid en generalisatie van het model ernstig. Om deze beperking te overwinnen, presenteren wij SAMA (gefactoriseerd Semantisch Ankeren en Bewegingsuitlijning), een raamwerk dat videobewerking opsplitst in semantisch ankeren en bewegingsmodellering. Ten eerste introduceren wij Semantisch Ankeren, dat een betrouwbaar visueel anker creëert door gezamenlijk semantische tokens en videolatents te voorspellen op verspreide ankerframes, wat puur instructiebewuste structurele planning mogelijk maakt. Ten tweede leert Bewegingsuitlijning dezelfde backbone vooraf aan op bewegingsgerichte videorestoratietaken (kubus-inpainting, snelheidsverstoring en buis-shuffle), waardoor het model temporele dynamiek direct uit ruwe video's internaliseert. SAMA wordt geoptimaliseerd met een tweefasenpijplijn: een gefactoriseerde vooropleidingsfase die inherente semantisch-bewegingsrepresentaties leert zonder gekoppelde video-instructiebewerkingsdata, gevolgd door supervised fine-tuning op gekoppelde bewerkingsdata. Opmerkelijk genoeg levert de gefactoriseerde vooropleiding al een sterke zero-shot videobewerkingscapaciteit op, wat de voorgestelde factorisatie valideert. SAMA behaalt state-of-the-art prestaties onder open-source modellen en is concurrerend met toonaangevende commerciële systemen (zoals Kling-Omni). Code, modellen en datasets zullen worden vrijgegeven.

English

Current instruction-guided video editing models struggle to simultaneously balance precise semantic modifications with faithful motion preservation. While existing approaches rely on injecting explicit external priors (e.g., VLM features or structural conditions) to mitigate these issues, this reliance severely bottlenecks model robustness and generalization. To overcome this limitation, we present SAMA (factorized Semantic Anchoring and Motion Alignment), a framework that factorizes video editing into semantic anchoring and motion modeling. First, we introduce Semantic Anchoring, which establishes a reliable visual anchor by jointly predicting semantic tokens and video latents at sparse anchor frames, enabling purely instruction-aware structural planning. Second, Motion Alignment pre-trains the same backbone on motion-centric video restoration pretext tasks (cube inpainting, speed perturbation, and tube shuffle), enabling the model to internalize temporal dynamics directly from raw videos. SAMA is optimized with a two-stage pipeline: a factorized pre-training stage that learns inherent semantic-motion representations without paired video-instruction editing data, followed by supervised fine-tuning on paired editing data. Remarkably, the factorized pre-training alone already yields strong zero-shot video editing ability, validating the proposed factorization. SAMA achieves state-of-the-art performance among open-source models and is competitive with leading commercial systems (e.g., Kling-Omni). Code, models, and datasets will be released.

SAMA: Gefactoriseerd Semantisch Ankeren en Bewegingsuitlijning voor Instructiegestuurd Videobewerken

SAMA: Factorized Semantic Anchoring and Motion Alignment for Instruction-Guided Video Editing

Samenvatting

Support