Trainingsvrije Latente Inter-Frame Pruning met Aandachtsherstel

Samenvatting

Huidige videogeneratiemodellen kampen met een hoge computationele latentie, waardoor realtime-toepassingen buitensporig kostbaar zijn. In dit artikel pakken we deze beperking aan door gebruik te maken van de temporele redundantie die inherent is aan latente videopatches. Hiertoe stellen we het Latent Inter-frame Pruning with Attention Recovery (LIPAR)-raamwerk voor, dat gedupliceerde latente patches detecteert en het opnieuw berekenen ervan overslaat. Daarnaast introduceren we een nieuwe Attention Recovery-mechanisme dat de aandachtswaarden van weggelaten tokens benadert, waardoor visuele artefacten worden verwijderd die ontstaan bij een naïeve toepassing van de pruning-methode. Empirisch verhoogt onze methode de doorvoer van videobewerking met een factor 1,45, met een gemiddelde prestatie van 12,2 FPS op een NVIDIA A6000 vergeleken met de baseline van 8,4 FPS. De voorgestelde methode gaat niet ten koste van de generatiekwaliteit en kan naadloos worden geïntegreerd in het model zonder extra training. Onze aanpak overbrugt effectief de kloof tussen traditionele compressie-algoritmen en moderne generatieve pijplijnen.

English

Current video generation models suffer from high computational latency, making real-time applications prohibitively costly. In this paper, we address this limitation by exploiting the temporal redundancy inherent in video latent patches. To this end, we propose the Latent Inter-frame Pruning with Attention Recovery (LIPAR) framework, which detects and skips recomputing duplicated latent patches. Additionally, we introduce a novel Attention Recovery mechanism that approximates the attention values of pruned tokens, thereby removing visual artifacts arising from naively applying the pruning method. Empirically, our method increases video editing throughput by 1.45times, on average achieving 12.2 FPS on an NVIDIA A6000 compared to the baseline 8.4 FPS. The proposed method does not compromise generation quality and can be seamlessly integrated with the model without additional training. Our approach effectively bridges the gap between traditional compression algorithms and modern generative pipelines.

Trainingsvrije Latente Inter-Frame Pruning met Aandachtsherstel

Training-free Latent Inter-Frame Pruning with Attention Recovery

Samenvatting

Support