ChatPaper.aiChatPaper

Беспрограммная латентная межкадровая прунинг с восстановлением внимания

Training-free Latent Inter-Frame Pruning with Attention Recovery

March 6, 2026
Авторы: Dennis Menn, Yuedong Yang, Bokun Wang, Xiwen Wei, Mustafa Munir, Feng Liang, Radu Marculescu, Chenfeng Xu, Diana Marculescu
cs.AI

Аннотация

Современные модели генерации видео страдают от высокой вычислительной задержки, что делает приложения реального времени чрезмерно затратными. В данной работе мы преодолеваем это ограничение, используя присущую видео латентным патчам временную избыточность. С этой целью мы предлагаем фреймворк Latent Inter-frame Pruning with Attention Recovery (LIPAR), который обнаруживает и пропускает повторные вычисления дублированных латентных патчей. Кроме того, мы представляем новый механизм восстановления внимания (Attention Recovery), который аппроксимирует значения внимания для отсеченных токенов, тем самым устраняя визуальные артефакты, возникающие при наивном применении метода прореживания. Экспериментально наш метод увеличивает пропускную способность редактирования видео в 1.45 раза, достигая в среднем 12.2 кадров в секунду на NVIDIA A6000 по сравнению с базовыми 8.4 кадрами в секунду. Предложенный метод не снижает качество генерации и может быть бесшовно интегрирован в модель без дополнительного обучения. Наш подход эффективно устраняет разрыв между традиционными алгоритмами сжатия и современными генеративными конвейерами.
English
Current video generation models suffer from high computational latency, making real-time applications prohibitively costly. In this paper, we address this limitation by exploiting the temporal redundancy inherent in video latent patches. To this end, we propose the Latent Inter-frame Pruning with Attention Recovery (LIPAR) framework, which detects and skips recomputing duplicated latent patches. Additionally, we introduce a novel Attention Recovery mechanism that approximates the attention values of pruned tokens, thereby removing visual artifacts arising from naively applying the pruning method. Empirically, our method increases video editing throughput by 1.45times, on average achieving 12.2 FPS on an NVIDIA A6000 compared to the baseline 8.4 FPS. The proposed method does not compromise generation quality and can be seamlessly integrated with the model without additional training. Our approach effectively bridges the gap between traditional compression algorithms and modern generative pipelines.
PDF133March 16, 2026