FastVMT: Устранение избыточности при переносе движения в видео
FastVMT: Eliminating Redundancy in Video Motion Transfer
February 5, 2026
Авторы: Yue Ma, Zhikai Wang, Tianhao Ren, Mingzhe Zheng, Hongyu Liu, Jiayi Guo, Mark Fong, Yuxuan Xue, Zixiang Zhao, Konrad Schindler, Qifeng Chen, Linfeng Zhang
cs.AI
Аннотация
Перенос движения в видео направлен на синтез видеороликов путем генерации визуального контента в соответствии с текстовым описанием с одновременным переносом паттернов движения, наблюдаемых в референсном видео. Современные методы преимущественно используют архитектуру Diffusion Transformer (DiT). Для достижения удовлетворительного времени выполнения ряд методов пытаются ускорить вычисления в DiT, но не устраняют структурные источники неэффективности. В данной работе мы выявляем и устраняем два типа вычислительной избыточности в предыдущих подходах: **избыточность движения** возникает из-за того, что универсальная архитектура DiT не учитывает факт малости и плавности межкадрового движения; **избыточность градиентов** возникает, если игнорировать медленное изменение градиентов вдоль траектории диффузии. Для снижения избыточности движения мы маскируем соответствующие слои внимания, ограничивая их локальной окрестностью, чтобы веса взаимодействий не вычислялись для излишне удаленных областей изображения. Для использования избыточности градиентов мы разрабатываем схему оптимизации, которая переиспользует градиенты с предыдущих шагов диффузии и пропускает необоснованные вычисления градиентов. В среднем FastVMT достигает ускорения в 3.43 раза без ухудшения визуального качества или временной согласованности генерируемых видео.
English
Video motion transfer aims to synthesize videos by generating visual content according to a text prompt while transferring the motion pattern observed in a reference video. Recent methods predominantly use the Diffusion Transformer (DiT) architecture. To achieve satisfactory runtime, several methods attempt to accelerate the computations in the DiT, but fail to address structural sources of inefficiency. In this work, we identify and remove two types of computational redundancy in earlier work: motion redundancy arises because the generic DiT architecture does not reflect the fact that frame-to-frame motion is small and smooth; gradient redundancy occurs if one ignores that gradients change slowly along the diffusion trajectory. To mitigate motion redundancy, we mask the corresponding attention layers to a local neighborhood such that interaction weights are not computed unnecessarily distant image regions. To exploit gradient redundancy, we design an optimization scheme that reuses gradients from previous diffusion steps and skips unwarranted gradient computations. On average, FastVMT achieves a 3.43x speedup without degrading the visual fidelity or the temporal consistency of the generated videos.