ChatPaper.aiChatPaper

Атрибуция движения для генерации видео

Motion Attribution for Video Generation

January 13, 2026
Авторы: Xindi Wu, Despoina Paschalidou, Jun Gao, Antonio Torralba, Laura Leal-Taixé, Olga Russakovsky, Sanja Fidler, Jonathan Lorraine
cs.AI

Аннотация

Несмотря на быстрый прогресс моделей генерации видео, роль данных в формировании движения остается малоизученной. Мы представляем Motive (MOTIon attribution for Video gEneration) — ориентированный на движение, градиентный фреймворк атрибуции данных, который масштабируется для современных больших наборов видео-данных высокого качества и соответствующих моделей. Мы используем его для изучения того, какие клипы дообучения улучшают или ухудшают временную динамику. Motive изолирует временную динамику от статического внешнего вида с помощью масок потерь, взвешенных по движению, что позволяет эффективно и масштабируемо вычислять влияние, специфичное для движения. В моделях текст-видео Motive идентифицирует клипы, которые сильно влияют на движение, и направляет курацию данных, улучшающую временную согласованность и физическую правдоподобность. С помощью данных с высоким влиянием, отобранных Motive, наш метод улучшает как плавность движения, так и степень динамики в VBench, достигая 74.1% уровня предпочтения человеком по сравнению с предварительно обученной базовой моделью. Насколько нам известно, это первая система, которая атрибутирует движение, а не визуальное представление в генеративных моделях видео, и использует это для курации данных дообучения.
English
Despite the rapid progress of video generation models, the role of data in influencing motion is poorly understood. We present Motive (MOTIon attribution for Video gEneration), a motion-centric, gradient-based data attribution framework that scales to modern, large, high-quality video datasets and models. We use this to study which fine-tuning clips improve or degrade temporal dynamics. Motive isolates temporal dynamics from static appearance via motion-weighted loss masks, yielding efficient and scalable motion-specific influence computation. On text-to-video models, Motive identifies clips that strongly affect motion and guides data curation that improves temporal consistency and physical plausibility. With Motive-selected high-influence data, our method improves both motion smoothness and dynamic degree on VBench, achieving a 74.1% human preference win rate compared with the pretrained base model. To our knowledge, this is the first framework to attribute motion rather than visual appearance in video generative models and to use it to curate fine-tuning data.
PDF61January 15, 2026