ChatPaper.aiChatPaper

Trainingsvrije Latente Inter-Frame Pruning met Aandachtsherstel

Training-free Latent Inter-Frame Pruning with Attention Recovery

March 6, 2026
Auteurs: Dennis Menn, Yuedong Yang, Bokun Wang, Xiwen Wei, Mustafa Munir, Feng Liang, Radu Marculescu, Chenfeng Xu, Diana Marculescu
cs.AI

Samenvatting

Huidige videogeneratiemodellen kampen met een hoge computationele latentie, waardoor realtime-toepassingen buitensporig kostbaar zijn. In dit artikel pakken we deze beperking aan door gebruik te maken van de temporele redundantie die inherent is aan latente videopatches. Hiertoe stellen we het Latent Inter-frame Pruning with Attention Recovery (LIPAR)-raamwerk voor, dat gedupliceerde latente patches detecteert en het opnieuw berekenen ervan overslaat. Daarnaast introduceren we een nieuwe Attention Recovery-mechanisme dat de aandachtswaarden van weggelaten tokens benadert, waardoor visuele artefacten worden verwijderd die ontstaan bij een naïeve toepassing van de pruning-methode. Empirisch verhoogt onze methode de doorvoer van videobewerking met een factor 1,45, met een gemiddelde prestatie van 12,2 FPS op een NVIDIA A6000 vergeleken met de baseline van 8,4 FPS. De voorgestelde methode gaat niet ten koste van de generatiekwaliteit en kan naadloos worden geïntegreerd in het model zonder extra training. Onze aanpak overbrugt effectief de kloof tussen traditionele compressie-algoritmen en moderne generatieve pijplijnen.
English
Current video generation models suffer from high computational latency, making real-time applications prohibitively costly. In this paper, we address this limitation by exploiting the temporal redundancy inherent in video latent patches. To this end, we propose the Latent Inter-frame Pruning with Attention Recovery (LIPAR) framework, which detects and skips recomputing duplicated latent patches. Additionally, we introduce a novel Attention Recovery mechanism that approximates the attention values of pruned tokens, thereby removing visual artifacts arising from naively applying the pruning method. Empirically, our method increases video editing throughput by 1.45times, on average achieving 12.2 FPS on an NVIDIA A6000 compared to the baseline 8.4 FPS. The proposed method does not compromise generation quality and can be seamlessly integrated with the model without additional training. Our approach effectively bridges the gap between traditional compression algorithms and modern generative pipelines.
PDF143March 26, 2026