トラッキングからの構造:映像生成のための構造保存モーションの蒸留
Structure From Tracking: Distilling Structure-Preserving Motion for Video Generation
December 12, 2025
著者: Yang Fei, George Stoica, Jingyuan Liu, Qifeng Chen, Ranjay Krishna, Xiaojuan Wang, Benlin Liu
cs.AI
要旨
現実とは、厳密な制約と変形可能な構造の間で繰り広げられるダンスである。映像モデルにおいては、これは忠実性と構造の両方を保持した動きを生成することを意味する。拡散モデルの進歩にもかかわらず、特に人間や動物のような関節構造を持つ物体や変形可能な物体において、現実的な構造保存的な動きを生成することは依然として困難な課題である。これまで、単に学習データをスケールアップするだけでは、物理的に不自然な遷移を解消することはできなかった。既存の手法は、オプティカルフローや外部の不完全なモデルから抽出された骨格など、ノイズの多い動き表現を用いた条件付けに依存している。これらの課題に対処するため、我々は自己回帰型映像追跡モデル(SAM2)から構造保存的な動きの事前分布を双方向映像拡散モデル(CogVideoX)に蒸留するアルゴリズムを提案する。本手法により、二つの革新を含むSAM2VideoXを学習する:(1)SAM2のような再帰型モデルから大域的な構造保存的動きの事前分布を抽出する双方向特徴融合モジュール;(2)局所的特徴が共にどのように動くかを整合させるLocal Gram Flow損失。VBenchおよび人間による評価実験において、SAM2VideoXは従来のベースラインと比較して一貫した性能向上(VBenchで+2.60%、FVDが21-22%低減、71.4%の人間選好度)を示した。具体的には、VBenchにおいて95.51%を達成し、REPA(92.91%)を2.60%上回り、FVDを360.57まで低減させ、REPAおよびLoRAファインチューニングと比較してそれぞれ21.20%、22.46%の改善を実現した。プロジェクトウェブサイトはhttps://sam2videox.github.io/で公開されている。
English
Reality is a dance between rigid constraints and deformable structures. For video models, that means generating motion that preserves fidelity as well as structure. Despite progress in diffusion models, producing realistic structure-preserving motion remains challenging, especially for articulated and deformable objects such as humans and animals. Scaling training data alone, so far, has failed to resolve physically implausible transitions. Existing approaches rely on conditioning with noisy motion representations, such as optical flow or skeletons extracted using an external imperfect model. To address these challenges, we introduce an algorithm to distill structure-preserving motion priors from an autoregressive video tracking model (SAM2) into a bidirectional video diffusion model (CogVideoX). With our method, we train SAM2VideoX, which contains two innovations: (1) a bidirectional feature fusion module that extracts global structure-preserving motion priors from a recurrent model like SAM2; (2) a Local Gram Flow loss that aligns how local features move together. Experiments on VBench and in human studies show that SAM2VideoX delivers consistent gains (+2.60\% on VBench, 21-22\% lower FVD, and 71.4\% human preference) over prior baselines. Specifically, on VBench, we achieve 95.51\%, surpassing REPA (92.91\%) by 2.60\%, and reduce FVD to 360.57, a 21.20\% and 22.46\% improvement over REPA- and LoRA-finetuning, respectively. The project website can be found at https://sam2videox.github.io/ .