SAMA: Ancoragem Semântica Fatorada e Alinhamento de Movimento para Edição de Vídeo Guiada por Instruções

Resumo

Os modelos atuais de edição de vídeo guiada por instrução lutam para equilibrar simultaneamente modificações semânticas precisas com a preservação fiel do movimento. Embora as abordagens existentes dependam da injeção de *priors* externos explícitos (por exemplo, características de VLM ou condições estruturais) para mitigar esses problemas, essa dependência limita severamente a robustez e a generalização do modelo. Para superar essa limitação, apresentamos o SAMA (*factorized Semantic Anchoring and Motion Alignment*), uma estrutura que fatoriza a edição de vídeo em ancoragem semântica e modelagem de movimento. Primeiro, introduzimos a Ancoragem Semântica, que estabelece uma âncora visual confiável através da previsão conjunta de *tokens* semânticos e *latents* de vídeo em *frames* de ancoragem esparsos, permitindo um planejamento estrutural puramente consciente da instrução. Em segundo lugar, o Alinhamento de Movimento pré-treina a mesma *backbone* em tarefas de pretexto de restauração de vídeo centradas no movimento (preenchimento de cubo, perturbação de velocidade e embaralhamento de tubo), permitindo que o modelo internalize a dinâmica temporal diretamente a partir de vídeos brutos. O SAMA é otimizado com um *pipeline* de dois estágios: um estágio de pré-treinamento fatorizado que apreende representações semântico-motoras inerentes sem dados pareados de edição vídeo-instrução, seguido por um ajuste fino supervisionado em dados de edição pareados. Notavelmente, apenas o pré-treinamento fatorizado já produz uma forte capacidade de edição de vídeo *zero-shot*, validando a fatorização proposta. O SAMA alcança desempenho de ponta entre os modelos de código aberto e é competitivo com os principais sistemas comerciais (por exemplo, Kling-Omni). Código, modelos e conjuntos de dados serão liberados.

English

Current instruction-guided video editing models struggle to simultaneously balance precise semantic modifications with faithful motion preservation. While existing approaches rely on injecting explicit external priors (e.g., VLM features or structural conditions) to mitigate these issues, this reliance severely bottlenecks model robustness and generalization. To overcome this limitation, we present SAMA (factorized Semantic Anchoring and Motion Alignment), a framework that factorizes video editing into semantic anchoring and motion modeling. First, we introduce Semantic Anchoring, which establishes a reliable visual anchor by jointly predicting semantic tokens and video latents at sparse anchor frames, enabling purely instruction-aware structural planning. Second, Motion Alignment pre-trains the same backbone on motion-centric video restoration pretext tasks (cube inpainting, speed perturbation, and tube shuffle), enabling the model to internalize temporal dynamics directly from raw videos. SAMA is optimized with a two-stage pipeline: a factorized pre-training stage that learns inherent semantic-motion representations without paired video-instruction editing data, followed by supervised fine-tuning on paired editing data. Remarkably, the factorized pre-training alone already yields strong zero-shot video editing ability, validating the proposed factorization. SAMA achieves state-of-the-art performance among open-source models and is competitive with leading commercial systems (e.g., Kling-Omni). Code, models, and datasets will be released.

SAMA: Ancoragem Semântica Fatorada e Alinhamento de Movimento para Edição de Vídeo Guiada por Instruções

SAMA: Factorized Semantic Anchoring and Motion Alignment for Instruction-Guided Video Editing

Resumo

Support