Potatura Inter-Fotogramma Latente Senza Addestramento con Recupero dell'Attenzione

Abstract

I modelli attuali di generazione video soffrono di un'elevata latenza computazionale, rendendo le applicazioni in tempo reale proibitivamente costose. In questo articolo, affrontiamo questa limitazione sfruttando la ridondanza temporale intrinseca delle patch latenti video. A tal fine, proponiamo il framework Latent Inter-frame Pruning with Attention Recovery (LIPAR), che rileva ed evita di ricalcolare le patch latenti duplicate. Inoltre, introduciamo un innovativo meccanismo di Recupero dell'Attenzione che approssima i valori di attenzione dei token eliminati, rimuovendo così gli artefatti visivi derivanti dall'applicazione ingenua del metodo di pruning. Empiricamente, il nostro metodo aumenta la produttività dell'editing video di 1,45 volte, raggiungendo in media 12,2 FPS su una NVIDIA A6000 rispetto ai 8,4 FPS del baseline. Il metodo proposto non compromette la qualità della generazione e può essere integrato perfettamente con il modello senza addestramento aggiuntivo. Il nostro approccio colma efficacemente il divario tra gli algoritmi di compressione tradizionali e le pipeline generative moderne.

English

Current video generation models suffer from high computational latency, making real-time applications prohibitively costly. In this paper, we address this limitation by exploiting the temporal redundancy inherent in video latent patches. To this end, we propose the Latent Inter-frame Pruning with Attention Recovery (LIPAR) framework, which detects and skips recomputing duplicated latent patches. Additionally, we introduce a novel Attention Recovery mechanism that approximates the attention values of pruned tokens, thereby removing visual artifacts arising from naively applying the pruning method. Empirically, our method increases video editing throughput by 1.45times, on average achieving 12.2 FPS on an NVIDIA A6000 compared to the baseline 8.4 FPS. The proposed method does not compromise generation quality and can be seamlessly integrated with the model without additional training. Our approach effectively bridges the gap between traditional compression algorithms and modern generative pipelines.

Potatura Inter-Fotogramma Latente Senza Addestramento con Recupero dell'Attenzione

Training-free Latent Inter-Frame Pruning with Attention Recovery

Abstract

Support