FastVMT: Eliminatie van redundantie in videobewegingsoverdracht

Samenvatting

Videobewegingsoverdracht heeft als doel video's te synthetiseren door visuele inhoud te genereren volgens een tekstprompt, waarbij het bewegingspatroon uit een referentievideo wordt overgedragen. Recente methodes gebruiken voornamelijk de Diffusion Transformer (DiT)-architectuur. Om een bevredigende rekentijd te bereiken, proberen verschillende methodes de berekeningen in de DiT te versnellen, maar slagen er niet in structurele bronnen van inefficiëntie aan te pakken. In dit werk identificeren en verwijderen we twee soorten computationele redundantie in eerder werk: bewegingsredundantie ontstaat omdat de generieke DiT-architectuur niet weerspiegelt dat frame-tot-frame beweging klein en vloeiend is; gradiëntredundantie treedt op als men negeert dat gradiënten langzaam veranderen langs het diffusietraject. Om bewegingsredundantie te verminderen, maskeren we de bijbehorende aandachtslagen naar een lokale omgeving, zodat interactiegewichten niet worden berekend voor onnodig verre beeldregio's. Om gradiëntredundantie te benutten, ontwerpen we een optimalisatieschema dat gradiënten van eerdere diffusiestappen hergebruikt en ongerechtvaardigde gradiëntberekeningen overslaat. Gemiddeld bereikt FastVMT een 3,43x versnelling zonder de visuele kwaliteit of temporele consistentie van de gegenereerde video's aan te tasten.

English

Video motion transfer aims to synthesize videos by generating visual content according to a text prompt while transferring the motion pattern observed in a reference video. Recent methods predominantly use the Diffusion Transformer (DiT) architecture. To achieve satisfactory runtime, several methods attempt to accelerate the computations in the DiT, but fail to address structural sources of inefficiency. In this work, we identify and remove two types of computational redundancy in earlier work: motion redundancy arises because the generic DiT architecture does not reflect the fact that frame-to-frame motion is small and smooth; gradient redundancy occurs if one ignores that gradients change slowly along the diffusion trajectory. To mitigate motion redundancy, we mask the corresponding attention layers to a local neighborhood such that interaction weights are not computed unnecessarily distant image regions. To exploit gradient redundancy, we design an optimization scheme that reuses gradients from previous diffusion steps and skips unwarranted gradient computations. On average, FastVMT achieves a 3.43x speedup without degrading the visual fidelity or the temporal consistency of the generated videos.

FastVMT: Eliminatie van redundantie in videobewegingsoverdracht

FastVMT: Eliminating Redundancy in Video Motion Transfer

Samenvatting

Support