Generazione Efficiente di Video Senza Addestramento Tramite Intaglio Dinamico di Token

Abstract

Nonostante la qualità di generazione notevole dei modelli video Diffusion Transformer (DiT), il loro utilizzo pratico è fortemente limitato dagli elevati requisiti computazionali. Questa inefficienza deriva da due sfide principali: la complessità quadratica dell'auto-attenzione rispetto alla lunghezza dei token e la natura multi-step dei modelli di diffusione. Per affrontare queste limitazioni, presentiamo Jenga, una pipeline di inferenza innovativa che combina il dynamic attention carving con la generazione progressiva della risoluzione. Il nostro approccio si basa su due intuizioni chiave: (1) i primi passi di denoising non richiedono latenti ad alta risoluzione, e (2) i passi successivi non necessitano di un'attenzione densa. Jenga introduce un meccanismo di attenzione a blocchi che seleziona dinamicamente le interazioni rilevanti tra i token utilizzando curve di riempimento spaziale 3D, insieme a una strategia di risoluzione progressiva che aumenta gradualmente la risoluzione dei latenti durante la generazione. I risultati sperimentali dimostrano che Jenga ottiene accelerazioni significative su più modelli video di diffusione all'avanguardia, mantenendo una qualità di generazione comparabile (un'accelerazione di 8,83 volte con un calo delle prestazioni dello 0,01% su VBench). Come soluzione plug-and-play, Jenga abilita la generazione pratica e di alta qualità di video su hardware moderno, riducendo il tempo di inferenza da minuti a secondi, senza richiedere il riaddestramento del modello. Codice: https://github.com/dvlab-research/Jenga

English

Despite the remarkable generation quality of video Diffusion Transformer (DiT) models, their practical deployment is severely hindered by extensive computational requirements. This inefficiency stems from two key challenges: the quadratic complexity of self-attention with respect to token length and the multi-step nature of diffusion models. To address these limitations, we present Jenga, a novel inference pipeline that combines dynamic attention carving with progressive resolution generation. Our approach leverages two key insights: (1) early denoising steps do not require high-resolution latents, and (2) later steps do not require dense attention. Jenga introduces a block-wise attention mechanism that dynamically selects relevant token interactions using 3D space-filling curves, alongside a progressive resolution strategy that gradually increases latent resolution during generation. Experimental results demonstrate that Jenga achieves substantial speedups across multiple state-of-the-art video diffusion models while maintaining comparable generation quality (8.83times speedup with 0.01\% performance drop on VBench). As a plug-and-play solution, Jenga enables practical, high-quality video generation on modern hardware by reducing inference time from minutes to seconds -- without requiring model retraining. Code: https://github.com/dvlab-research/Jenga

Generazione Efficiente di Video Senza Addestramento Tramite Intaglio Dinamico di Token

Training-Free Efficient Video Generation via Dynamic Token Carving

Abstract

Support