SAMA: Anclaje Semántico Factorizado y Alineamiento de Movimiento para la Edición de Videos Guiada por Instrucciones

Resumen

Los modelos actuales de edición de vídeo guiada por instrucciones luchan por equilibrar simultáneamente modificaciones semánticas precisas con una preservación fiel del movimiento. Si bien los enfoques existentes dependen de inyectar conocimientos externos explícitos (por ejemplo, características VLM o condiciones estructurales) para mitigar estos problemas, esta dependencia limita severamente la robustez y generalización del modelo. Para superar esta limitación, presentamos SAMA (Anclaje Semántico Factorizado y Alineación de Movimiento), un marco que factoriza la edición de vídeo en anclaje semántico y modelado del movimiento. Primero, introducimos el Anclaje Semántico, que establece un ancla visual confiable mediante la predicción conjunta de tokens semánticos y latentes de vídeo en fotogramas ancla dispersos, permitiendo una planificación estructural puramente consciente de la instrucción. En segundo lugar, la Alineación de Movimiento pre-entrena el mismo *backbone* en tareas de pretexto de restauración de vídeo centradas en el movimiento (inpainting cúbico, perturbación de velocidad y barajado de tubos), permitiendo que el modelo internalice la dinámica temporal directamente de los vídeos en bruto. SAMA se optimiza con un *pipeline* de dos etapas: una etapa de pre-entrenamiento factorizado que aprende representaciones semántico-movimiento inherentes sin datos de edición vídeo-instrucción emparejados, seguida de un ajuste fino supervisado con datos de edición emparejados. Notablemente, el pre-entrenamiento factorizado por sí solo ya produce una fuerte capacidad de edición de vídeo *zero-shot*, validando la factorización propuesta. SAMA logra un rendimiento state-of-the-art entre los modelos de código abierto y es competitivo con los principales sistemas comerciales (por ejemplo, Kling-Omni). El código, los modelos y los conjuntos de datos serán liberados.

English

Current instruction-guided video editing models struggle to simultaneously balance precise semantic modifications with faithful motion preservation. While existing approaches rely on injecting explicit external priors (e.g., VLM features or structural conditions) to mitigate these issues, this reliance severely bottlenecks model robustness and generalization. To overcome this limitation, we present SAMA (factorized Semantic Anchoring and Motion Alignment), a framework that factorizes video editing into semantic anchoring and motion modeling. First, we introduce Semantic Anchoring, which establishes a reliable visual anchor by jointly predicting semantic tokens and video latents at sparse anchor frames, enabling purely instruction-aware structural planning. Second, Motion Alignment pre-trains the same backbone on motion-centric video restoration pretext tasks (cube inpainting, speed perturbation, and tube shuffle), enabling the model to internalize temporal dynamics directly from raw videos. SAMA is optimized with a two-stage pipeline: a factorized pre-training stage that learns inherent semantic-motion representations without paired video-instruction editing data, followed by supervised fine-tuning on paired editing data. Remarkably, the factorized pre-training alone already yields strong zero-shot video editing ability, validating the proposed factorization. SAMA achieves state-of-the-art performance among open-source models and is competitive with leading commercial systems (e.g., Kling-Omni). Code, models, and datasets will be released.

SAMA: Anclaje Semántico Factorizado y Alineamiento de Movimiento para la Edición de Videos Guiada por Instrucciones

SAMA: Factorized Semantic Anchoring and Motion Alignment for Instruction-Guided Video Editing

Resumen

Support