Structure From Tracking : Distillation d'un mouvement préservant la structure pour la génération vidéo
Structure From Tracking: Distilling Structure-Preserving Motion for Video Generation
December 12, 2025
papers.authors: Yang Fei, George Stoica, Jingyuan Liu, Qifeng Chen, Ranjay Krishna, Xiaojuan Wang, Benlin Liu
cs.AI
papers.abstract
La réalité est une danse entre contraintes rigides et structures déformables. Pour les modèles vidéo, cela signifie générer un mouvement qui préserve à la fois la fidélité et la structure. Malgré les progrès des modèles de diffusion, produire un mouvement réaliste préservant la structure reste un défi, particulièrement pour les objets articulés et déformables comme les humains et les animaux. Jusqu'à présent, l'augmentation seule des données d'entraînement n'a pas résolu les transitions physiquement improbables. Les approches existantes reposent sur un conditionnement par des représentations de mouvement bruitées, comme le flux optique ou les squelettes extraits à l'aide d'un modèle externe imparfait. Pour relever ces défis, nous présentons un algorithme permettant de distiller des préconnaissances de mouvement préservant la structure à partir d'un modèle de suivi vidéo autorégressif (SAM2) vers un modèle de diffusion vidéo bidirectionnel (CogVideoX). Avec notre méthode, nous entraînons SAM2VideoX, qui contient deux innovations : (1) un module de fusion de caractéristiques bidirectionnel qui extrait des préconnaissances de mouvement global préservant la structure d'un modèle récurrent comme SAM2 ; (2) une perte Local Gram Flow qui aligne la manière dont les caractéristiques locales se déplacent ensemble. Les expériences sur VBench et les études humaines montrent que SAM2VideoX apporte des gains constants (+2,60 % sur VBench, FVD inférieur de 21-22 % et une préférence humaine de 71,4 %) par rapport aux lignes de base antérieures. Concrètement, sur VBench, nous atteignons 95,51 %, surpassant REPA (92,91 %) de 2,60 %, et réduisons le FVD à 360,57, soit une amélioration de 21,20 % et 22,46 % par rapport au réglage fin REPA et LoRA, respectivement. Le site web du projet est disponible à l'adresse https://sam2videox.github.io/.
English
Reality is a dance between rigid constraints and deformable structures. For video models, that means generating motion that preserves fidelity as well as structure. Despite progress in diffusion models, producing realistic structure-preserving motion remains challenging, especially for articulated and deformable objects such as humans and animals. Scaling training data alone, so far, has failed to resolve physically implausible transitions. Existing approaches rely on conditioning with noisy motion representations, such as optical flow or skeletons extracted using an external imperfect model. To address these challenges, we introduce an algorithm to distill structure-preserving motion priors from an autoregressive video tracking model (SAM2) into a bidirectional video diffusion model (CogVideoX). With our method, we train SAM2VideoX, which contains two innovations: (1) a bidirectional feature fusion module that extracts global structure-preserving motion priors from a recurrent model like SAM2; (2) a Local Gram Flow loss that aligns how local features move together. Experiments on VBench and in human studies show that SAM2VideoX delivers consistent gains (+2.60\% on VBench, 21-22\% lower FVD, and 71.4\% human preference) over prior baselines. Specifically, on VBench, we achieve 95.51\%, surpassing REPA (92.91\%) by 2.60\%, and reduce FVD to 360.57, a 21.20\% and 22.46\% improvement over REPA- and LoRA-finetuning, respectively. The project website can be found at https://sam2videox.github.io/ .