Poda Interframe de Latentes sem Treinamento com Recuperação de Atenção

Resumo

Os modelos atuais de geração de vídeo sofrem com alta latência computacional, tornando aplicações em tempo real proibitivamente caras. Neste artigo, abordamos essa limitação explorando a redundância temporal inerente aos patches latentes de vídeo. Para tanto, propomos o framework Latent Inter-frame Pruning with Attention Recovery (LIPAR), que detecta e evita a recomputação de patches latentes duplicados. Adicionalmente, introduzimos um novo mecanismo de Recuperação de Atenção que aproxima os valores de atenção dos tokens podados, eliminando assim artefatos visuais decorrentes da aplicação ingênua do método de poda. Empiricamente, nosso método aumenta a taxa de processamento de edição de vídeo em 1,45 vezes, atingindo em média 12,2 FPS em uma NVIDIA A6000 comparado aos 8,4 FPS da linha de base. O método proposto não compromete a qualidade de geração e pode ser integrado perfeitamente ao modelo sem treinamento adicional. Nossa abordagem efetivamente preenche a lacuna entre algoritmos de compressão tradicionais e pipelines generativos modernos.

English

Current video generation models suffer from high computational latency, making real-time applications prohibitively costly. In this paper, we address this limitation by exploiting the temporal redundancy inherent in video latent patches. To this end, we propose the Latent Inter-frame Pruning with Attention Recovery (LIPAR) framework, which detects and skips recomputing duplicated latent patches. Additionally, we introduce a novel Attention Recovery mechanism that approximates the attention values of pruned tokens, thereby removing visual artifacts arising from naively applying the pruning method. Empirically, our method increases video editing throughput by 1.45times, on average achieving 12.2 FPS on an NVIDIA A6000 compared to the baseline 8.4 FPS. The proposed method does not compromise generation quality and can be seamlessly integrated with the model without additional training. Our approach effectively bridges the gap between traditional compression algorithms and modern generative pipelines.

Poda Interframe de Latentes sem Treinamento com Recuperação de Atenção

Training-free Latent Inter-Frame Pruning with Attention Recovery

Resumo

Support