FastVMT: Beseitigung von Redundanzen bei der Videobewegungsübertragung
FastVMT: Eliminating Redundancy in Video Motion Transfer
February 5, 2026
papers.authors: Yue Ma, Zhikai Wang, Tianhao Ren, Mingzhe Zheng, Hongyu Liu, Jiayi Guo, Mark Fong, Yuxuan Xue, Zixiang Zhao, Konrad Schindler, Qifeng Chen, Linfeng Zhang
cs.AI
papers.abstract
Video Motion Transfer zielt darauf ab, Videos zu synthetisieren, indem visuelle Inhalte anhand einer Textbeschreibung generiert werden, während das Bewegungsmuster aus einem Referenzvideo übertragen wird. Aktuelle Methoden verwenden vorwiegend die Diffusion Transformer (DiT)-Architektur. Um eine zufriedenstellende Laufzeit zu erreichen, versuchen mehrere Methoden, die Berechnungen im DiT zu beschleunigen, adressieren jedoch strukturelle Quellen von Ineffizienz nicht. In dieser Arbeit identifizieren und beseitigen wir zwei Arten von Berechnungsredundanz in früheren Arbeiten: Bewegungsredundanz entsteht, weil die generische DiT-Architektur nicht berücksichtigt, dass die Bewegung von Frame zu Frame gering und glatt ist; Gradientenredundanz tritt auf, wenn man ignoriert, dass sich Gradienten entlang der Diffusions-Trajektorie langsam ändern. Um Bewegungsredundanz zu verringern, maskieren wir die entsprechenden Attention-Layer auf eine lokale Umgebung, sodass Interaktionsgewichte nicht für unnötig weit entfernte Bildregionen berechnet werden. Um Gradientenredundanz auszunutzen, entwerfen wir ein Optimierungsschema, das Gradienten aus vorherigen Diffusionsschritten wiederverwendet und unbegründete Gradientenberechnungen überspringt. Im Durchschnitt erreicht FastVMT eine 3,43-fache Beschleunigung, ohne die visuelle Qualität oder die zeitliche Konsistenz der generierten Videos zu beeinträchtigen.
English
Video motion transfer aims to synthesize videos by generating visual content according to a text prompt while transferring the motion pattern observed in a reference video. Recent methods predominantly use the Diffusion Transformer (DiT) architecture. To achieve satisfactory runtime, several methods attempt to accelerate the computations in the DiT, but fail to address structural sources of inefficiency. In this work, we identify and remove two types of computational redundancy in earlier work: motion redundancy arises because the generic DiT architecture does not reflect the fact that frame-to-frame motion is small and smooth; gradient redundancy occurs if one ignores that gradients change slowly along the diffusion trajectory. To mitigate motion redundancy, we mask the corresponding attention layers to a local neighborhood such that interaction weights are not computed unnecessarily distant image regions. To exploit gradient redundancy, we design an optimization scheme that reuses gradients from previous diffusion steps and skips unwarranted gradient computations. On average, FastVMT achieves a 3.43x speedup without degrading the visual fidelity or the temporal consistency of the generated videos.