FastVMT: Eliminare la Ridondanza nel Trasferimento del Movimento Video

Abstract

Il trasferimento di movimento video mira a sintetizzare video generando contenuti visivi in base a una descrizione testuale, trasferendo al contempo il modello di movimento osservato in un video di riferimento. I metodi recenti utilizzano prevalentemente l'architettura Diffusion Transformer (DiT). Per ottenere tempi di esecuzione soddisfacenti, diversi metodi tentano di accelerare i calcoli nella DiT, ma non affrontano le fonti strutturali di inefficienza. In questo lavoro, identifichiamo e rimuoviamo due tipi di ridondanza computazionale presenti in lavori precedenti: la ridondanza di movimento sorge perché l'architettura generica DiT non riflette il fatto che il movimento tra fotogrammi è piccolo e uniforme; la ridondanza del gradiente si verifica se si ignora che i gradienti cambiano lentamente lungo la traiettoria di diffusione. Per mitigare la ridondanza di movimento, mascheriamo i corrispondenti livelli di attenzione su un intorno locale in modo che i pesi di interazione non vengano calcolati per regioni immagine non necessariamente distanti. Per sfruttare la ridondanza del gradiente, progettiamo uno schema di ottimizzazione che riutilizza i gradienti dei passi di diffusione precedenti e salta i calcoli di gradiente non giustificati. In media, FastVMT raggiunge un'accelerazione di 3,43x senza degradare la fedeltà visiva o la coerenza temporale dei video generati.

English

Video motion transfer aims to synthesize videos by generating visual content according to a text prompt while transferring the motion pattern observed in a reference video. Recent methods predominantly use the Diffusion Transformer (DiT) architecture. To achieve satisfactory runtime, several methods attempt to accelerate the computations in the DiT, but fail to address structural sources of inefficiency. In this work, we identify and remove two types of computational redundancy in earlier work: motion redundancy arises because the generic DiT architecture does not reflect the fact that frame-to-frame motion is small and smooth; gradient redundancy occurs if one ignores that gradients change slowly along the diffusion trajectory. To mitigate motion redundancy, we mask the corresponding attention layers to a local neighborhood such that interaction weights are not computed unnecessarily distant image regions. To exploit gradient redundancy, we design an optimization scheme that reuses gradients from previous diffusion steps and skips unwarranted gradient computations. On average, FastVMT achieves a 3.43x speedup without degrading the visual fidelity or the temporal consistency of the generated videos.

FastVMT: Eliminare la Ridondanza nel Trasferimento del Movimento Video

FastVMT: Eliminating Redundancy in Video Motion Transfer

Abstract

Support