ChatPaper.aiChatPaper

Structure From Tracking: Het Destilleren van Structuurbehoudende Beweging voor Videogeneratie

Structure From Tracking: Distilling Structure-Preserving Motion for Video Generation

December 12, 2025
Auteurs: Yang Fei, George Stoica, Jingyuan Liu, Qifeng Chen, Ranjay Krishna, Xiaojuan Wang, Benlin Liu
cs.AI

Samenvatting

De werkelijkheid is een dans tussen rigide beperkingen en vervormbare structuren. Voor videomodellen betekent dit het genereren van beweging die zowel de getrouwheid als de structuur behoudt. Ondanks vooruitgang in diffusiemodellen blijft het produceren van realistische, structuurbehoudende beweging een uitdaging, vooral voor gearticuleerde en vervormbare objecten zoals mensen en dieren. Het schalen van trainingsdata alleen heeft tot nu toe gefaald in het oplossen van fysisch ongeloofwaardige overgangen. Bestaande benaderingen steunen op conditionering met ruisgevoelige bewegingsrepresentaties, zoals optische stroming of skeletten geëxtraheerd met een extern, imperfect model. Om deze uitdagingen aan te pakken, introduceren we een algoritme om structuurbehoudende bewegingspriors te distilleren uit een autoregressief videotrackingmodel (SAM2) naar een bidirectioneel videodiffusiemodel (CogVideoX). Met onze methode trainen we SAM2VideoX, dat twee innovaties bevat: (1) een bidirectionele featurefusiemodule die globale structuurbehoudende bewegingspriors extraheert uit een recurrent model zoals SAM2; (2) een Local Gram Flow-verliesfunctie die uitlijnt hoe lokale features samen bewegen. Experimenten op VBench en in humane studies tonen aan dat SAM2VideoX consistente verbeteringen oplevert (+2,60% op VBench, 21-22% lagere FVD, en 71,4% menselijke voorkeur) ten opzichte van eerdere baseline-methoden. Specifiek behalen we op VBench 95,51%, wat REPA (92,91%) met 2,60% overtreft, en verlagen we de FVD naar 360,57, een verbetering van respectievelijk 21,20% en 22,46% ten opzichte van REPA- en LoRA-finetuning. De projectwebsite is te vinden op https://sam2videox.github.io/.
English
Reality is a dance between rigid constraints and deformable structures. For video models, that means generating motion that preserves fidelity as well as structure. Despite progress in diffusion models, producing realistic structure-preserving motion remains challenging, especially for articulated and deformable objects such as humans and animals. Scaling training data alone, so far, has failed to resolve physically implausible transitions. Existing approaches rely on conditioning with noisy motion representations, such as optical flow or skeletons extracted using an external imperfect model. To address these challenges, we introduce an algorithm to distill structure-preserving motion priors from an autoregressive video tracking model (SAM2) into a bidirectional video diffusion model (CogVideoX). With our method, we train SAM2VideoX, which contains two innovations: (1) a bidirectional feature fusion module that extracts global structure-preserving motion priors from a recurrent model like SAM2; (2) a Local Gram Flow loss that aligns how local features move together. Experiments on VBench and in human studies show that SAM2VideoX delivers consistent gains (+2.60\% on VBench, 21-22\% lower FVD, and 71.4\% human preference) over prior baselines. Specifically, on VBench, we achieve 95.51\%, surpassing REPA (92.91\%) by 2.60\%, and reduce FVD to 360.57, a 21.20\% and 22.46\% improvement over REPA- and LoRA-finetuning, respectively. The project website can be found at https://sam2videox.github.io/ .
PDF92December 17, 2025