ChatPaper.aiChatPaper

추적 기반 구조 생성: 구조 보존 동작을 활용한 비디오 생성

Structure From Tracking: Distilling Structure-Preserving Motion for Video Generation

December 12, 2025
저자: Yang Fei, George Stoica, Jingyuan Liu, Qifeng Chen, Ranjay Krishna, Xiaojuan Wang, Benlin Liu
cs.AI

초록

현실은 경직된 제약 조건과 변형 가능한 구조 사이의 춤과 같습니다. 비디오 모델의 경우 이는 구조는 물론 충실도도 보존하는 모션을 생성함을 의미합니다. 디퓨전 모델의 발전에도 불구하고, 인간 및 동물과 같은 관절 구조물 및 가변형 객체에 대한 사실적이고 구조를 보존하는 모션 생성은 여전히 어려운 과제입니다. 지금까지는 단순히 훈련 데이터를 확장하는 것만으로는 물리적으로 비합리적인 전이를 해결하지 못했습니다. 기존 접근법은 광학 흐름이나 외부 불완전 모델로 추출한 골격과 같은 노이즈가 있는 모션 표현을 조건화에 의존합니다. 이러한 문제를 해결하기 위해 우리는 자기회귀 비디오 추적 모델(SAM2)에서 구조 보존 모션 사전 지식을 양방향 비디오 디퓨전 모델(CogVideoX)로 증류하는 알고리즘을 소개합니다. 우리의 방법으로 SAM2VideoX를 훈련하는데, 여기에는 두 가지 혁신이 포함됩니다: (1) SAM2와 같은 순환 모델에서 전역 구조 보존 모션 사전 지식을 추출하는 양방향 특징 융합 모듈; (2) 지역적 특징들이 함께 어떻게 움직이는지를 정렬하는 Local Gram Flow 손실 함수. VBench 및 인간 평가 실험에서 SAM2VideoX는 기존 기준선 대비 일관된 성능 향상(VBench +2.60%, FVD 21-22% 감소, 71.4% 인간 선호도)을 보여줍니다. 구체적으로, VBench에서 95.51%를 달성하여 REPA(92.91%)를 2.60% 앞섰으며, FVD를 360.57로 낮춰 REPA 및 LoRA 파인튜닝 대비 각각 21.20%, 22.46% 개선했습니다. 프로젝트 웹사이트는 https://sam2videox.github.io/에서 확인할 수 있습니다.
English
Reality is a dance between rigid constraints and deformable structures. For video models, that means generating motion that preserves fidelity as well as structure. Despite progress in diffusion models, producing realistic structure-preserving motion remains challenging, especially for articulated and deformable objects such as humans and animals. Scaling training data alone, so far, has failed to resolve physically implausible transitions. Existing approaches rely on conditioning with noisy motion representations, such as optical flow or skeletons extracted using an external imperfect model. To address these challenges, we introduce an algorithm to distill structure-preserving motion priors from an autoregressive video tracking model (SAM2) into a bidirectional video diffusion model (CogVideoX). With our method, we train SAM2VideoX, which contains two innovations: (1) a bidirectional feature fusion module that extracts global structure-preserving motion priors from a recurrent model like SAM2; (2) a Local Gram Flow loss that aligns how local features move together. Experiments on VBench and in human studies show that SAM2VideoX delivers consistent gains (+2.60\% on VBench, 21-22\% lower FVD, and 71.4\% human preference) over prior baselines. Specifically, on VBench, we achieve 95.51\%, surpassing REPA (92.91\%) by 2.60\%, and reduce FVD to 360.57, a 21.20\% and 22.46\% improvement over REPA- and LoRA-finetuning, respectively. The project website can be found at https://sam2videox.github.io/ .
PDF92December 17, 2025