ChatPaper.aiChatPaper

FastVMT: Eliminando a Redundância na Transferência de Movimento em Vídeo

FastVMT: Eliminating Redundancy in Video Motion Transfer

February 5, 2026
Autores: Yue Ma, Zhikai Wang, Tianhao Ren, Mingzhe Zheng, Hongyu Liu, Jiayi Guo, Mark Fong, Yuxuan Xue, Zixiang Zhao, Konrad Schindler, Qifeng Chen, Linfeng Zhang
cs.AI

Resumo

A transferência de movimento em vídeo visa sintetizar vídeos gerando conteúdo visual de acordo com um prompt textual, transferindo ao mesmo tempo o padrão de movimento observado em um vídeo de referência. Os métodos recentes utilizam predominantemente a arquitetura Diffusion Transformer (DiT). Para obter um tempo de execução satisfatório, vários métodos tentam acelerar os cálculos no DiT, mas não conseguem abordar as fontes estruturais de ineficiência. Neste trabalho, identificamos e removemos dois tipos de redundância computacional em trabalhos anteriores: a **redundância de movimento** surge porque a arquitetura genérica do DiT não reflete o facto de o movimento entre fotogramas ser pequeno e suave; a **redundância de gradiente** ocorre se ignorarmos que os gradientes mudam lentamente ao longo da trajetória de difusão. Para mitigar a redundância de movimento, mascaramos as camadas de atenção correspondentes a uma vizinhança local, de modo que os pesos de interação não sejam calculados para regiões de imagem desnecessariamente distantes. Para explorar a redundância de gradiente, projetamos um esquema de otimização que reutiliza gradientes de passos de difusão anteriores e omite cálculos de gradiente não justificados. Em média, o FastVMT alcança uma aceleração de 3,43x sem degradar a fidelidade visual ou a consistência temporal dos vídeos gerados.
English
Video motion transfer aims to synthesize videos by generating visual content according to a text prompt while transferring the motion pattern observed in a reference video. Recent methods predominantly use the Diffusion Transformer (DiT) architecture. To achieve satisfactory runtime, several methods attempt to accelerate the computations in the DiT, but fail to address structural sources of inefficiency. In this work, we identify and remove two types of computational redundancy in earlier work: motion redundancy arises because the generic DiT architecture does not reflect the fact that frame-to-frame motion is small and smooth; gradient redundancy occurs if one ignores that gradients change slowly along the diffusion trajectory. To mitigate motion redundancy, we mask the corresponding attention layers to a local neighborhood such that interaction weights are not computed unnecessarily distant image regions. To exploit gradient redundancy, we design an optimization scheme that reuses gradients from previous diffusion steps and skips unwarranted gradient computations. On average, FastVMT achieves a 3.43x speedup without degrading the visual fidelity or the temporal consistency of the generated videos.
PDF13February 7, 2026