SAMA: Факторизованный семантический якорь и согласование движения для редактирования видео по инструкциям

Аннотация

Современные модели редактирования видео по текстовым инструкциям не способны одновременно обеспечивать точные семантические модификации и сохранение исходной динамики движения. Хотя существующие подходы используют явные внешние априорные данные (например, признаки VLM или структурные условия) для смягчения этих проблем, такая зависимость серьезно ограничивает устойчивость и обобщающую способность моделей. Для преодоления этого ограничения мы представляем SAMA (Factorized Semantic Anchoring and Motion Alignment) — фреймворк, который декомпозирует редактирование видео на семантическое якорение и моделирование движения. Во-первых, мы вводим Semantic Anchoring, который создает надежный визуальный якорь путем совместного предсказания семантических токенов и латентных представлений видео в разреженных ключевых кадрах, что обеспечивает чисто инструкционное структурное планирование. Во-вторых, Motion Alignment предобучает тот же базовый блок на задачах восстановления видео, сфокусированных на движении (вправление кубов, возмущение скорости и перемешивание трубок), позволяя модели усваивать временную динамику непосредственно из исходных видео. SAMA оптимизируется по двухэтапному конвейеру: этап факторизованного предварительного обучения, который изучает внутренние семантико-динамические представления без парных данных редактирования «видео-инструкция», за которым следует контролируемое дообучение на парных данных редактирования. Примечательно, что уже одно только факторизованное предварительное обучение демонстрирует высокую способность к zero-shot редактированию видео, подтверждая предложенную декомпозицию. SAMA достигает наилучшей производительности среди открытых моделей и конкурирует с ведущими коммерческими системами (например, Kling-Omni). Код, модели и наборы данных будут опубликованы.

English

Current instruction-guided video editing models struggle to simultaneously balance precise semantic modifications with faithful motion preservation. While existing approaches rely on injecting explicit external priors (e.g., VLM features or structural conditions) to mitigate these issues, this reliance severely bottlenecks model robustness and generalization. To overcome this limitation, we present SAMA (factorized Semantic Anchoring and Motion Alignment), a framework that factorizes video editing into semantic anchoring and motion modeling. First, we introduce Semantic Anchoring, which establishes a reliable visual anchor by jointly predicting semantic tokens and video latents at sparse anchor frames, enabling purely instruction-aware structural planning. Second, Motion Alignment pre-trains the same backbone on motion-centric video restoration pretext tasks (cube inpainting, speed perturbation, and tube shuffle), enabling the model to internalize temporal dynamics directly from raw videos. SAMA is optimized with a two-stage pipeline: a factorized pre-training stage that learns inherent semantic-motion representations without paired video-instruction editing data, followed by supervised fine-tuning on paired editing data. Remarkably, the factorized pre-training alone already yields strong zero-shot video editing ability, validating the proposed factorization. SAMA achieves state-of-the-art performance among open-source models and is competitive with leading commercial systems (e.g., Kling-Omni). Code, models, and datasets will be released.

SAMA: Факторизованный семантический якорь и согласование движения для редактирования видео по инструкциям

SAMA: Factorized Semantic Anchoring and Motion Alignment for Instruction-Guided Video Editing

Аннотация

Support