Trainingsfreie latente Inter-Frame-Reduktion mit Attention-Recovery

Zusammenfassung

Aktuelle Videogenerierungsmodelle leiden unter hoher Rechenlatenz, was Echtzeitanwendungen unverhältnismäßig kostspielig macht. In dieser Arbeit begegnen wir dieser Einschränkung, indem wir die inhärente zeitliche Redundanz in latenten Videopatches ausnutzen. Zu diesem Zweck schlagen wir den Rahmen Latent Inter-frame Pruning with Attention Recovery (LIPAR) vor, der duplizierte latente Patches erkennt und deren Neuberechnung überspringt. Zusätzlich führen wir einen neuartigen Attention-Recovery-Mechanismus ein, der die Attention-Werte beschnittener Token approximiert und dadurch visuelle Artefakte entfernt, die durch eine naive Anwendung der Beschnittmethode entstehen. Empirisch steigert unsere Methode den Videobearbeitungsdurchsatz um das 1,45-fache und erreicht im Durchschnitt 12,2 FPS auf einer NVIDIA A6000 im Vergleich zu 8,4 FPS der Baseline. Die vorgeschlagene Methode beeinträchtigt die Generierungsqualität nicht und kann nahtlos in das Modell integriert werden, ohne zusätzliches Training zu erfordern. Unser Ansatz überbrückt effektiv die Lücke zwischen traditionellen Kompressionsalgorithmen und modernen Generierungspipelines.

English

Current video generation models suffer from high computational latency, making real-time applications prohibitively costly. In this paper, we address this limitation by exploiting the temporal redundancy inherent in video latent patches. To this end, we propose the Latent Inter-frame Pruning with Attention Recovery (LIPAR) framework, which detects and skips recomputing duplicated latent patches. Additionally, we introduce a novel Attention Recovery mechanism that approximates the attention values of pruned tokens, thereby removing visual artifacts arising from naively applying the pruning method. Empirically, our method increases video editing throughput by 1.45times, on average achieving 12.2 FPS on an NVIDIA A6000 compared to the baseline 8.4 FPS. The proposed method does not compromise generation quality and can be seamlessly integrated with the model without additional training. Our approach effectively bridges the gap between traditional compression algorithms and modern generative pipelines.

Trainingsfreie latente Inter-Frame-Reduktion mit Attention-Recovery

Training-free Latent Inter-Frame Pruning with Attention Recovery

Zusammenfassung

Support