Generazione Efficiente di Video Senza Addestramento Tramite Intaglio Dinamico di Token
Training-Free Efficient Video Generation via Dynamic Token Carving
May 22, 2025
Autori: Yuechen Zhang, Jinbo Xing, Bin Xia, Shaoteng Liu, Bohao Peng, Xin Tao, Pengfei Wan, Eric Lo, Jiaya Jia
cs.AI
Abstract
Nonostante la qualità di generazione notevole dei modelli video Diffusion Transformer (DiT), il loro utilizzo pratico è fortemente limitato dagli elevati requisiti computazionali. Questa inefficienza deriva da due sfide principali: la complessità quadratica dell'auto-attenzione rispetto alla lunghezza dei token e la natura multi-step dei modelli di diffusione. Per affrontare queste limitazioni, presentiamo Jenga, una pipeline di inferenza innovativa che combina il dynamic attention carving con la generazione progressiva della risoluzione. Il nostro approccio si basa su due intuizioni chiave: (1) i primi passi di denoising non richiedono latenti ad alta risoluzione, e (2) i passi successivi non necessitano di un'attenzione densa. Jenga introduce un meccanismo di attenzione a blocchi che seleziona dinamicamente le interazioni rilevanti tra i token utilizzando curve di riempimento spaziale 3D, insieme a una strategia di risoluzione progressiva che aumenta gradualmente la risoluzione dei latenti durante la generazione. I risultati sperimentali dimostrano che Jenga ottiene accelerazioni significative su più modelli video di diffusione all'avanguardia, mantenendo una qualità di generazione comparabile (un'accelerazione di 8,83 volte con un calo delle prestazioni dello 0,01% su VBench). Come soluzione plug-and-play, Jenga abilita la generazione pratica e di alta qualità di video su hardware moderno, riducendo il tempo di inferenza da minuti a secondi, senza richiedere il riaddestramento del modello. Codice: https://github.com/dvlab-research/Jenga
English
Despite the remarkable generation quality of video Diffusion Transformer
(DiT) models, their practical deployment is severely hindered by extensive
computational requirements. This inefficiency stems from two key challenges:
the quadratic complexity of self-attention with respect to token length and the
multi-step nature of diffusion models. To address these limitations, we present
Jenga, a novel inference pipeline that combines dynamic attention carving with
progressive resolution generation. Our approach leverages two key insights: (1)
early denoising steps do not require high-resolution latents, and (2) later
steps do not require dense attention. Jenga introduces a block-wise attention
mechanism that dynamically selects relevant token interactions using 3D
space-filling curves, alongside a progressive resolution strategy that
gradually increases latent resolution during generation. Experimental results
demonstrate that Jenga achieves substantial speedups across multiple
state-of-the-art video diffusion models while maintaining comparable generation
quality (8.83times speedup with 0.01\% performance drop on VBench). As a
plug-and-play solution, Jenga enables practical, high-quality video generation
on modern hardware by reducing inference time from minutes to seconds --
without requiring model retraining. Code:
https://github.com/dvlab-research/Jenga