Estrutura a Partir do Rastreamento: Destilando Movimento que Preserva Estrutura para Geração de Vídeo

Resumo

A realidade é uma dança entre restrições rígidas e estruturas deformáveis. Para modelos de vídeo, isso significa gerar movimento que preserve tanto a fidelidade quanto a estrutura. Apesar dos avanços nos modelos de difusão, produzir movimento realista que preserve a estrutura continua a ser um desafio, especialmente para objetos articulados e deformáveis, como humanos e animais. Até agora, apenas aumentar a escala dos dados de treino não conseguiu resolver transições fisicamente implausíveis. As abordagens existentes dependem de condicionamento com representações de movimento ruidosas, como fluxo ótico ou esqueletos extraídos usando um modelo externo imperfeito. Para enfrentar estes desafios, introduzimos um algoritmo para destilar *priors* de movimento que preservam a estrutura a partir de um modelo de rastreamento de vídeo autorregressivo (SAM2) para um modelo de difusão de vídeo bidirecional (CogVideoX). Com o nosso método, treinámos o SAM2VideoX, que contém duas inovações: (1) um módulo de fusão de características bidirecional que extrai *priors* de movimento globais que preservam a estrutura de um modelo recorrente como o SAM2; (2) uma função de perda *Local Gram Flow* que alinha a forma como as características locais se movem em conjunto. Experiências no VBench e em estudos com humanos mostram que o SAM2VideoX proporciona ganhos consistentes (+2,60% no VBench, FVD 21-22% menor e 71,4% de preferência humana) face a *baselines* anteriores. Especificamente, no VBench, alcançámos 95,51%, superando o REPA (92,91%) em 2,60%, e reduzimos o FVD para 360,57, uma melhoria de 21,20% e 22,46% em relação ao REPA e ao *fine-tuning* LoRA, respetivamente. O website do projeto pode ser encontrado em https://sam2videox.github.io/.

English

Reality is a dance between rigid constraints and deformable structures. For video models, that means generating motion that preserves fidelity as well as structure. Despite progress in diffusion models, producing realistic structure-preserving motion remains challenging, especially for articulated and deformable objects such as humans and animals. Scaling training data alone, so far, has failed to resolve physically implausible transitions. Existing approaches rely on conditioning with noisy motion representations, such as optical flow or skeletons extracted using an external imperfect model. To address these challenges, we introduce an algorithm to distill structure-preserving motion priors from an autoregressive video tracking model (SAM2) into a bidirectional video diffusion model (CogVideoX). With our method, we train SAM2VideoX, which contains two innovations: (1) a bidirectional feature fusion module that extracts global structure-preserving motion priors from a recurrent model like SAM2; (2) a Local Gram Flow loss that aligns how local features move together. Experiments on VBench and in human studies show that SAM2VideoX delivers consistent gains (+2.60\% on VBench, 21-22\% lower FVD, and 71.4\% human preference) over prior baselines. Specifically, on VBench, we achieve 95.51\%, surpassing REPA (92.91\%) by 2.60\%, and reduce FVD to 360.57, a 21.20\% and 22.46\% improvement over REPA- and LoRA-finetuning, respectively. The project website can be found at https://sam2videox.github.io/ .

Estrutura a Partir do Rastreamento: Destilando Movimento que Preserva Estrutura para Geração de Vídeo

Structure From Tracking: Distilling Structure-Preserving Motion for Video Generation

Resumo

Support