Struttura dal Tracciamento: Distillare il Movimento che Preserva la Struttura per la Generazione Video
Structure From Tracking: Distilling Structure-Preserving Motion for Video Generation
December 12, 2025
Autori: Yang Fei, George Stoica, Jingyuan Liu, Qifeng Chen, Ranjay Krishna, Xiaojuan Wang, Benlin Liu
cs.AI
Abstract
La realtà è una danza tra vincoli rigidi e strutture deformabili. Per i modelli video, ciò significa generare movimenti che preservino sia la fedeltà che la struttura. Nonostante i progressi nei modelli di diffusione, produrre movimenti realistici che preservino la struttura rimane una sfida, specialmente per oggetti articolati e deformabili come esseri umani e animali. Finora, il semplice aumento dei dati di addestramento non è riuscito a risolvere le transizioni fisicamente implausibili. Gli approcci esistenti si basano su condizionamenti con rappresentazioni di movimento rumorose, come il flusso ottico o gli scheletri estratti utilizzando un modello esterno imperfetto. Per affrontare queste sfide, introduciamo un algoritmo per distillare prior di movimento che preservano la struttura da un modello di tracking video autoregressivo (SAM2) in un modello di diffusione video bidirezionale (CogVideoX). Con il nostro metodo, addestriamo SAM2VideoX, che contiene due innovazioni: (1) un modulo di fusione delle feature bidirezionale che estrae prior di movimento globali che preservano la struttura da un modello ricorrente come SAM2; (2) una perdita Local Gram Flow che allinea il modo in cui le feature locali si muovono insieme. Esperimenti su VBench e studi umani mostrano che SAM2VideoX fornisce miglioramenti consistenti (+2,60% su VBench, FVD inferiore del 21-22% e preferenza umana del 71,4%) rispetto ai baseline precedenti. In particolare, su VBench, otteniamo il 95,51%, superando REPA (92,91%) del 2,60% e riduciamo l'FVD a 360,57, un miglioramento rispettivamente del 21,20% e del 22,46% rispetto a REPA e alla messa a punto LoRA. Il sito web del progetto è disponibile all'indirizzo https://sam2videox.github.io/.
English
Reality is a dance between rigid constraints and deformable structures. For video models, that means generating motion that preserves fidelity as well as structure. Despite progress in diffusion models, producing realistic structure-preserving motion remains challenging, especially for articulated and deformable objects such as humans and animals. Scaling training data alone, so far, has failed to resolve physically implausible transitions. Existing approaches rely on conditioning with noisy motion representations, such as optical flow or skeletons extracted using an external imperfect model. To address these challenges, we introduce an algorithm to distill structure-preserving motion priors from an autoregressive video tracking model (SAM2) into a bidirectional video diffusion model (CogVideoX). With our method, we train SAM2VideoX, which contains two innovations: (1) a bidirectional feature fusion module that extracts global structure-preserving motion priors from a recurrent model like SAM2; (2) a Local Gram Flow loss that aligns how local features move together. Experiments on VBench and in human studies show that SAM2VideoX delivers consistent gains (+2.60\% on VBench, 21-22\% lower FVD, and 71.4\% human preference) over prior baselines. Specifically, on VBench, we achieve 95.51\%, surpassing REPA (92.91\%) by 2.60\%, and reduce FVD to 360.57, a 21.20\% and 22.46\% improvement over REPA- and LoRA-finetuning, respectively. The project website can be found at https://sam2videox.github.io/ .