ChatPaper.aiChatPaper

FastVMT : Élimination de la redondance dans le transfert de mouvement vidéo

FastVMT: Eliminating Redundancy in Video Motion Transfer

February 5, 2026
papers.authors: Yue Ma, Zhikai Wang, Tianhao Ren, Mingzhe Zheng, Hongyu Liu, Jiayi Guo, Mark Fong, Yuxuan Xue, Zixiang Zhao, Konrad Schindler, Qifeng Chen, Linfeng Zhang
cs.AI

papers.abstract

Le transfert de mouvement vidéo vise à synthétiser des vidéos en générant un contenu visuel à partir d'une consigne textuelle tout en transférant la structure motrice observée dans une vidéo de référence. Les méthodes récentes utilisent principalement l'architecture Diffusion Transformer (DiT). Pour obtenir un temps d'exécution satisfaisant, plusieurs tentatives d'accélération des calculs dans le DiT ont été proposées, sans toutefois adresser les sources structurelles d'inefficacité. Dans ce travail, nous identifions et éliminons deux types de redondance computationnelle dans les approches existantes : la redondance motionnelle provient du fait que l'architecture générique du DiT ne tient pas compte de la faible variation inter-images du mouvement ; la redondance gradientielle survient lorsque l'on ignore la lente évolution des gradients le long de la trajectoire de diffusion. Pour réduire la redondance motionnelle, nous masquons les couches d'attention correspondantes afin de restreindre les interactions à un voisinage local, évitant ainsi le calcul inutile de poids pour des régions éloignées de l'image. Pour exploiter la redondance gradientielle, nous concevons un schéma d'optimisation qui réutilise les gradients des étapes de diffusion précédentes et ignore les calculs gradientiels non nécessaires. En moyenne, FastVMT achieve une accélération de 3,43x sans dégrader la fidélité visuelle ni la cohérence temporelle des vidéos générées.
English
Video motion transfer aims to synthesize videos by generating visual content according to a text prompt while transferring the motion pattern observed in a reference video. Recent methods predominantly use the Diffusion Transformer (DiT) architecture. To achieve satisfactory runtime, several methods attempt to accelerate the computations in the DiT, but fail to address structural sources of inefficiency. In this work, we identify and remove two types of computational redundancy in earlier work: motion redundancy arises because the generic DiT architecture does not reflect the fact that frame-to-frame motion is small and smooth; gradient redundancy occurs if one ignores that gradients change slowly along the diffusion trajectory. To mitigate motion redundancy, we mask the corresponding attention layers to a local neighborhood such that interaction weights are not computed unnecessarily distant image regions. To exploit gradient redundancy, we design an optimization scheme that reuses gradients from previous diffusion steps and skips unwarranted gradient computations. On average, FastVMT achieves a 3.43x speedup without degrading the visual fidelity or the temporal consistency of the generated videos.
PDF12February 7, 2026