Poda Inter-Frame Latente sin Entrenamiento con Recuperación de Atención

Resumen

Los modelos actuales de generación de vídeo adolecen de una alta latencia computacional, lo que hace prohibitivo el coste de las aplicaciones en tiempo real. En este artículo, abordamos esta limitación explotando la redundancia temporal inherente a los parches latentes de vídeo. Con este fin, proponemos el marco Latent Inter-frame Pruning with Attention Recovery (LIPAR), que detecta y omite el recálculo de parches latentes duplicados. Adicionalmente, introducimos un novedoso mecanismo de Recuperación de Atención que aproxima los valores de atención de los tokens podados, eliminando así los artefactos visuales que surgen de aplicar el método de poda de forma simplista. Empíricamente, nuestro método incrementa el rendimiento en la edición de vídeo en 1.45x, logrando en promedio 12.2 FPS en una NVIDIA A6000 frente a los 8.4 FPS de la línea base. El método propuesto no compromete la calidad de generación y puede integrarse perfectamente en el modelo sin entrenamiento adicional. Nuestro enfoque salva eficazmente la brecha entre los algoritmos de compresión tradicionales y los modernos pipelines generativos.

English

Current video generation models suffer from high computational latency, making real-time applications prohibitively costly. In this paper, we address this limitation by exploiting the temporal redundancy inherent in video latent patches. To this end, we propose the Latent Inter-frame Pruning with Attention Recovery (LIPAR) framework, which detects and skips recomputing duplicated latent patches. Additionally, we introduce a novel Attention Recovery mechanism that approximates the attention values of pruned tokens, thereby removing visual artifacts arising from naively applying the pruning method. Empirically, our method increases video editing throughput by 1.45times, on average achieving 12.2 FPS on an NVIDIA A6000 compared to the baseline 8.4 FPS. The proposed method does not compromise generation quality and can be seamlessly integrated with the model without additional training. Our approach effectively bridges the gap between traditional compression algorithms and modern generative pipelines.

Poda Inter-Frame Latente sin Entrenamiento con Recuperación de Atención

Training-free Latent Inter-Frame Pruning with Attention Recovery

Resumen

Support