Atribuição de Movimento para Geração de Vídeo
Motion Attribution for Video Generation
January 13, 2026
Autores: Xindi Wu, Despoina Paschalidou, Jun Gao, Antonio Torralba, Laura Leal-Taixé, Olga Russakovsky, Sanja Fidler, Jonathan Lorraine
cs.AI
Resumo
Apesar do rápido progresso dos modelos de geração de vídeo, o papel dos dados na influência do movimento é pouco compreendido. Apresentamos o Motive (Atribuição de Movimento para Geração de Vídeo), uma estrutura de atribuição de dados centrada no movimento e baseada em gradientes que se dimensiona para conjuntos de dados e modelos de vídeo modernos, grandes e de alta qualidade. Utilizamos isso para estudar quais clipes de *fine-tuning* melhoram ou degradam a dinâmica temporal. O Motive isola a dinâmica temporal da aparência estática por meio de máscaras de perda ponderadas pelo movimento, resultando em um cálculo de influência específico para o movimento eficiente e escalável. Em modelos de texto para vídeo, o Motive identifica clipes que afetam fortemente o movimento e orienta a curadoria de dados que melhora a consistência temporal e a plausibilidade física. Com dados de alta influência selecionados pelo Motive, nosso método melhora tanto a suavidade do movimento quanto o grau dinâmico no VBench, alcançando uma taxa de preferência humana de 74,1% em comparação com o modelo base pré-treinado. Até onde sabemos, esta é a primeira estrutura a atribuir movimento em vez de aparência visual em modelos generativos de vídeo e a usá-la para curar dados de *fine-tuning*.
English
Despite the rapid progress of video generation models, the role of data in influencing motion is poorly understood. We present Motive (MOTIon attribution for Video gEneration), a motion-centric, gradient-based data attribution framework that scales to modern, large, high-quality video datasets and models. We use this to study which fine-tuning clips improve or degrade temporal dynamics. Motive isolates temporal dynamics from static appearance via motion-weighted loss masks, yielding efficient and scalable motion-specific influence computation. On text-to-video models, Motive identifies clips that strongly affect motion and guides data curation that improves temporal consistency and physical plausibility. With Motive-selected high-influence data, our method improves both motion smoothness and dynamic degree on VBench, achieving a 74.1% human preference win rate compared with the pretrained base model. To our knowledge, this is the first framework to attribute motion rather than visual appearance in video generative models and to use it to curate fine-tuning data.