동영상 생성을 위한 모션 귀속
Motion Attribution for Video Generation
January 13, 2026
저자: Xindi Wu, Despoina Paschalidou, Jun Gao, Antonio Torralba, Laura Leal-Taixé, Olga Russakovsky, Sanja Fidler, Jonathan Lorraine
cs.AI
초록
비디오 생성 모델의 급속한 발전에도 불구하고, 모션에 영향을 미치는 데이터의 역할은 제대로 이해되지 않고 있습니다. 본 논문에서는 현대적이고 규모가 크며 고품질인 비디오 데이터셋과 모델에 확장 적용 가능한 모션 중심의 그래디언트 기반 데이터 귀속 프레임워크인 Motive(MOTIon attribution for Video gEneration)를 제안합니다. 이를 통해 어떤 파인튜닝 클립이 시간적 역학을 개선하거나 저하시키는지 연구합니다. Motive는 모션 가중 손실 마스크를 통해 정적 외관과 시간적 역학을 분리하여 효율적이고 확장 가능한 모션 특화 영향력 계산을 제공합니다. 텍스트-비디오 모델에서 Motive는 모션에 강한 영향을 미치는 클립을 식별하고, 시간적 일관성과 물리적 타당성을 개선하는 데이터 큐레이션을 안내합니다. Motive로 선별한 고영향력 데이터를 사용한 우리의 방법론은 VBench에서 모션 부드러움과 동적 정도를 모두 개선하여 사전 학습된 기본 모델 대비 74.1%의 인간 선호도 승률을 달성했습니다. 우리가 알기로, 이는 비디오 생성 모델에서 시각적 외관이 아닌 모션을 귀속시키고 이를 파인튜닝 데이터 큐레이션에 활용하는 최초의 프레임워크입니다.
English
Despite the rapid progress of video generation models, the role of data in influencing motion is poorly understood. We present Motive (MOTIon attribution for Video gEneration), a motion-centric, gradient-based data attribution framework that scales to modern, large, high-quality video datasets and models. We use this to study which fine-tuning clips improve or degrade temporal dynamics. Motive isolates temporal dynamics from static appearance via motion-weighted loss masks, yielding efficient and scalable motion-specific influence computation. On text-to-video models, Motive identifies clips that strongly affect motion and guides data curation that improves temporal consistency and physical plausibility. With Motive-selected high-influence data, our method improves both motion smoothness and dynamic degree on VBench, achieving a 74.1% human preference win rate compared with the pretrained base model. To our knowledge, this is the first framework to attribute motion rather than visual appearance in video generative models and to use it to curate fine-tuning data.