Élagage Inter-Images en Latent Sans Entraînement avec Récupération de l'Attention
Training-free Latent Inter-Frame Pruning with Attention Recovery
March 6, 2026
Auteurs: Dennis Menn, Yuedong Yang, Bokun Wang, Xiwen Wei, Mustafa Munir, Feng Liang, Radu Marculescu, Chenfeng Xu, Diana Marculescu
cs.AI
Résumé
Les modèles actuels de génération vidéo souffrent d'une latence computationnelle élevée, rendant les applications en temps réel prohibitivement coûteuses. Dans cet article, nous abordons cette limitation en exploitant la redondance temporelle inhérente aux patches latents vidéo. À cette fin, nous proposons le cadre LIPAR (Latent Inter-frame Pruning with Attention Recovery), qui détecte et évite de recalculer les patches latents dupliqués. De plus, nous introduisons un nouveau mécanisme de Récupération de l'Attention qui approxime les valeurs d'attention des tokens élagués, éliminant ainsi les artefacts visuels résultant de l'application naïve de la méthode d'élagage. Empiriquement, notre méthode augmente le débit d'édition vidéo d'un facteur 1,45, atteignant en moyenne 12,2 IPS sur une NVIDIA A6000 contre 8,4 IPS pour la ligne de base. La méthode proposée ne compromet pas la qualité de génération et peut être intégrée de manière transparente au modèle sans apprentissage supplémentaire. Notre approche comble efficacement le fossé entre les algorithmes de compression traditionnels et les pipelines génératifs modernes.
English
Current video generation models suffer from high computational latency, making real-time applications prohibitively costly. In this paper, we address this limitation by exploiting the temporal redundancy inherent in video latent patches. To this end, we propose the Latent Inter-frame Pruning with Attention Recovery (LIPAR) framework, which detects and skips recomputing duplicated latent patches. Additionally, we introduce a novel Attention Recovery mechanism that approximates the attention values of pruned tokens, thereby removing visual artifacts arising from naively applying the pruning method. Empirically, our method increases video editing throughput by 1.45times, on average achieving 12.2 FPS on an NVIDIA A6000 compared to the baseline 8.4 FPS. The proposed method does not compromise generation quality and can be seamlessly integrated with the model without additional training. Our approach effectively bridges the gap between traditional compression algorithms and modern generative pipelines.