Atribución de Movimiento para la Generación de Video
Motion Attribution for Video Generation
January 13, 2026
Autores: Xindi Wu, Despoina Paschalidou, Jun Gao, Antonio Torralba, Laura Leal-Taixé, Olga Russakovsky, Sanja Fidler, Jonathan Lorraine
cs.AI
Resumen
A pesar del rápido progreso de los modelos de generación de vídeo, el papel de los datos en la influencia del movimiento es poco comprendido. Presentamos Motive (MOTIon attribution for Video gEneration), un marco de atribución de datos basado en gradientes y centrado en el movimiento, que se adapta a conjuntos de datos y modelos de vídeo modernos, extensos y de alta calidad. Lo utilizamos para estudiar qué clips de ajuste fino mejoran o degradan la dinámica temporal. Motive aísla la dinámica temporal de la apariencia estática mediante máscaras de pérdida ponderadas por movimiento, lo que permite un cálculo de influencia específico del movimiento eficiente y escalable. En modelos de texto a vídeo, Motive identifica clips que afectan significativamente al movimiento y guía la curación de datos que mejora la coherencia temporal y la plausibilidad física. Con datos de alta influencia seleccionados por Motive, nuestro método mejora tanto la suavidad del movimiento como el grado dinámico en VBench, logrando una tasa de preferencia humana del 74.1% en comparación con el modelo base preentrenado. Hasta donde sabemos, este es el primer marco que atribuye el movimiento en lugar de la apariencia visual en modelos generativos de vídeo y lo utiliza para curar datos de ajuste fino.
English
Despite the rapid progress of video generation models, the role of data in influencing motion is poorly understood. We present Motive (MOTIon attribution for Video gEneration), a motion-centric, gradient-based data attribution framework that scales to modern, large, high-quality video datasets and models. We use this to study which fine-tuning clips improve or degrade temporal dynamics. Motive isolates temporal dynamics from static appearance via motion-weighted loss masks, yielding efficient and scalable motion-specific influence computation. On text-to-video models, Motive identifies clips that strongly affect motion and guides data curation that improves temporal consistency and physical plausibility. With Motive-selected high-influence data, our method improves both motion smoothness and dynamic degree on VBench, achieving a 74.1% human preference win rate compared with the pretrained base model. To our knowledge, this is the first framework to attribute motion rather than visual appearance in video generative models and to use it to curate fine-tuning data.