Structure From Tracking: Extraktion struktur-erhaltender Bewegung für die Videogenerierung
Structure From Tracking: Distilling Structure-Preserving Motion for Video Generation
December 12, 2025
papers.authors: Yang Fei, George Stoica, Jingyuan Liu, Qifeng Chen, Ranjay Krishna, Xiaojuan Wang, Benlin Liu
cs.AI
papers.abstract
Die Realität ist ein Wechselspiel zwischen starren Beschränkungen und verformbaren Strukturen. Für Videomodelle bedeutet dies, Bewegungen zu erzeugen, die sowohl die Detailtreue als auch die Struktur bewahren. Trotz Fortschritten bei Diffusionsmodellen bleibt die Erzeugung realistischer, strukturerhaltender Bewegungen eine Herausforderung, insbesondere bei artikulierten und verformbaren Objekten wie Menschen und Tieren. Die reine Skalierung von Trainingsdaten hat bisher physikalisch unplausible Übergänge nicht lösen können. Bestehende Ansätze stützen sich auf die Konditionierung mit verrauschten Bewegungsrepräsentationen, wie optischem Fluss oder Skeletten, die mit externen, unvollkommenen Modellen extrahiert werden. Um diese Herausforderungen zu bewältigen, stellen wir einen Algorithmus vor, um strukturerhaltende Bewegungs-Priors aus einem autoregressiven Video-Tracking-Modell (SAM2) in ein bidirektionales Video-Diffusionsmodell (CogVideoX) zu destillieren. Mit unserer Methode trainieren wir SAM2VideoX, das zwei Innovationen umfasst: (1) ein bidirektionales Feature-Fusion-Modul, das globale strukturerhaltende Bewegungs-Priors aus einem rekurrenten Modell wie SAM2 extrahiert; (2) einen Local-Gram-Flow-Loss, der die gemeinsame Bewegung lokaler Features ausrichtet. Experimente mit VBench und in Nutzerstudien zeigen, dass SAM2VideoX konsistente Verbesserungen (+2,60 % bei VBench, 21–22 % niedrigeres FVD und 71,4 % menschliche Präferenz) gegenüber früheren Baseline-Modellen erzielt. Konkret erreichen wir bei VBench 95,51 %, was REPA (92,91 %) um 2,60 % übertrifft, und senken das FVD auf 360,57, eine Verbesserung um 21,20 % bzw. 22,46 % gegenüber REPA- und LoRA-Finetuning. Die Projektwebsite ist unter https://sam2videox.github.io/ zu finden.
English
Reality is a dance between rigid constraints and deformable structures. For video models, that means generating motion that preserves fidelity as well as structure. Despite progress in diffusion models, producing realistic structure-preserving motion remains challenging, especially for articulated and deformable objects such as humans and animals. Scaling training data alone, so far, has failed to resolve physically implausible transitions. Existing approaches rely on conditioning with noisy motion representations, such as optical flow or skeletons extracted using an external imperfect model. To address these challenges, we introduce an algorithm to distill structure-preserving motion priors from an autoregressive video tracking model (SAM2) into a bidirectional video diffusion model (CogVideoX). With our method, we train SAM2VideoX, which contains two innovations: (1) a bidirectional feature fusion module that extracts global structure-preserving motion priors from a recurrent model like SAM2; (2) a Local Gram Flow loss that aligns how local features move together. Experiments on VBench and in human studies show that SAM2VideoX delivers consistent gains (+2.60\% on VBench, 21-22\% lower FVD, and 71.4\% human preference) over prior baselines. Specifically, on VBench, we achieve 95.51\%, surpassing REPA (92.91\%) by 2.60\%, and reduce FVD to 360.57, a 21.20\% and 22.46\% improvement over REPA- and LoRA-finetuning, respectively. The project website can be found at https://sam2videox.github.io/ .