SAMA: Faktorisierte semantische Verankerung und Bewegungsausrichtung für instruktionsgesteuerte Videobearbeitung

Zusammenfassung

Aktuelle instruktionsgesteuerte Video-Bearbeitungsmodelle haben Schwierigkeiten, präzise semantische Modifikationen mit treuer Bewegungserhaltung gleichzeitig in Einklang zu bringen. Während bestehende Ansätze auf das Einspielen expliziter externer Priori (z.B. VLM-Merkmale oder strukturelle Bedingungen) setzen, um diese Probleme zu mildern, stellt diese Abhängigkeit einen erheblichen Engpass für die Robustheit und Generalisierungsfähigkeit des Modells dar. Um diese Einschränkung zu überwinden, präsentieren wir SAMA (faktorisierte Semantische Verankerung und Bewegungsausrichtung), ein Framework, das die Videobearbeitung in semantische Verankerung und Bewegungsmodellierung faktorisiert. Zunächst führen wir die Semantische Verankerung ein, die einen zuverlässigen visuellen Anker schafft, indem sie semantische Tokens und Video-Latenzen an spärlich verteilten Ankerframes gemeinsam vorhersagt und so eine rein instruktionsbewusste Strukturplanung ermöglicht. Zweitens prä-trainiert die Bewegungsausrichtung das gleiche Backbone auf bewegungszentrierten Video-Restaurations-Pretext-Aufgaben (Cube-Inpainting, Geschwindigkeitsperturbation und Tube-Shuffle), wodurch das Modell zeitliche Dynamiken direkt aus den Rohvideos internalisiert. SAMA wird mit einer zweistufigen Pipeline optimiert: einer faktorisierten Pre-Training-Phase, die inhärente Semantik-Bewegungs-Repräsentationen ohne gepaarte Video-Instruktions-Bearbeitungsdaten lernt, gefolgt von einem überwachten Feinabstimmen auf gepaarten Bearbeitungsdaten. Bemerkenswerterweise führt das faktorisierte Pre-Training allein bereits zu einer starken Zero-Shot-Videobearbeitungsfähigkeit, was die vorgeschlagene Faktorisierung validiert. SAMA erreicht state-of-the-art Leistung unter Open-Source-Modellen und ist mit führenden kommerziellen Systemen (z.B. Kling-Omni) wettbewerbsfähig. Code, Modelle und Datensätze werden veröffentlicht.

English

Current instruction-guided video editing models struggle to simultaneously balance precise semantic modifications with faithful motion preservation. While existing approaches rely on injecting explicit external priors (e.g., VLM features or structural conditions) to mitigate these issues, this reliance severely bottlenecks model robustness and generalization. To overcome this limitation, we present SAMA (factorized Semantic Anchoring and Motion Alignment), a framework that factorizes video editing into semantic anchoring and motion modeling. First, we introduce Semantic Anchoring, which establishes a reliable visual anchor by jointly predicting semantic tokens and video latents at sparse anchor frames, enabling purely instruction-aware structural planning. Second, Motion Alignment pre-trains the same backbone on motion-centric video restoration pretext tasks (cube inpainting, speed perturbation, and tube shuffle), enabling the model to internalize temporal dynamics directly from raw videos. SAMA is optimized with a two-stage pipeline: a factorized pre-training stage that learns inherent semantic-motion representations without paired video-instruction editing data, followed by supervised fine-tuning on paired editing data. Remarkably, the factorized pre-training alone already yields strong zero-shot video editing ability, validating the proposed factorization. SAMA achieves state-of-the-art performance among open-source models and is competitive with leading commercial systems (e.g., Kling-Omni). Code, models, and datasets will be released.

SAMA: Faktorisierte semantische Verankerung und Bewegungsausrichtung für instruktionsgesteuerte Videobearbeitung

SAMA: Factorized Semantic Anchoring and Motion Alignment for Instruction-Guided Video Editing

Zusammenfassung

Support