FastVMT: Eliminación de la Redundancia en la Transferencia de Movimiento en Video
FastVMT: Eliminating Redundancy in Video Motion Transfer
February 5, 2026
Autores: Yue Ma, Zhikai Wang, Tianhao Ren, Mingzhe Zheng, Hongyu Liu, Jiayi Guo, Mark Fong, Yuxuan Xue, Zixiang Zhao, Konrad Schindler, Qifeng Chen, Linfeng Zhang
cs.AI
Resumen
La transferencia de movimiento en video tiene como objetivo sintetizar videos generando contenido visual según un texto descriptivo, mientras se transfiere el patrón de movimiento observado en un video de referencia. Los métodos recientes utilizan predominantemente la arquitectura del Transformer de Difusión (DiT). Para lograr un tiempo de ejecución satisfactorio, varios métodos intentan acelerar los cálculos en el DiT, pero no logran abordar las fuentes estructurales de ineficiencia. En este trabajo, identificamos y eliminamos dos tipos de redundancia computacional en trabajos anteriores: la redundancia de movimiento surge porque la arquitectura genérica del DiT no refleja el hecho de que el movimiento entre fotogramas es pequeño y suave; la redundancia de gradiente ocurre si se ignora que los gradientes cambian lentamente a lo largo de la trayectoria de difusión. Para mitigar la redundancia de movimiento, enmascaramos las capas de atención correspondientes a una vecindad local, de modo que los pesos de interacción no se calculen para regiones de imagen innecesariamente distantes. Para aprovechar la redundancia de gradiente, diseñamos un esquema de optimización que reutiliza los gradientes de pasos de difusión anteriores y omite cálculos de gradiente no justificados. En promedio, FastVMT logra una aceleración de 3.43x sin degradar la fidelidad visual ni la coherencia temporal de los videos generados.
English
Video motion transfer aims to synthesize videos by generating visual content according to a text prompt while transferring the motion pattern observed in a reference video. Recent methods predominantly use the Diffusion Transformer (DiT) architecture. To achieve satisfactory runtime, several methods attempt to accelerate the computations in the DiT, but fail to address structural sources of inefficiency. In this work, we identify and remove two types of computational redundancy in earlier work: motion redundancy arises because the generic DiT architecture does not reflect the fact that frame-to-frame motion is small and smooth; gradient redundancy occurs if one ignores that gradients change slowly along the diffusion trajectory. To mitigate motion redundancy, we mask the corresponding attention layers to a local neighborhood such that interaction weights are not computed unnecessarily distant image regions. To exploit gradient redundancy, we design an optimization scheme that reuses gradients from previous diffusion steps and skips unwarranted gradient computations. On average, FastVMT achieves a 3.43x speedup without degrading the visual fidelity or the temporal consistency of the generated videos.