Training-vrije efficiënte videogeneratie via dynamische tokenbewerking
Training-Free Efficient Video Generation via Dynamic Token Carving
May 22, 2025
Auteurs: Yuechen Zhang, Jinbo Xing, Bin Xia, Shaoteng Liu, Bohao Peng, Xin Tao, Pengfei Wan, Eric Lo, Jiaya Jia
cs.AI
Samenvatting
Ondanks de opmerkelijke generatiekwaliteit van video Diffusion Transformer (DiT)-modellen, wordt hun praktische inzet ernstig belemmerd door de uitgebreide rekenvereisten. Deze inefficiëntie komt voort uit twee belangrijke uitdagingen: de kwadratische complexiteit van self-attention ten opzichte van de tokenlengte en de meerstapsaard van diffusiemodellen. Om deze beperkingen aan te pakken, presenteren we Jenga, een nieuwe inferentiepijplijn die dynamische aandachtssnijding combineert met progressieve resolutiegeneratie. Onze aanpak maakt gebruik van twee belangrijke inzichten: (1) vroege denoiseringsstappen vereisen geen hoge-resolutie latente representaties, en (2) latere stappen vereisen geen dichte aandacht. Jenga introduceert een bloksgewijs aandachtmechanisme dat dynamisch relevante tokeninteracties selecteert met behulp van 3D ruimtevullende curven, naast een progressieve resolutiestrategie die geleidelijk de latente resolutie verhoogt tijdens de generatie. Experimentele resultaten tonen aan dat Jenga aanzienlijke snelheidswinsten behaalt bij meerdere state-of-the-art video diffusiemodellen, terwijl een vergelijkbare generatiekwaliteit wordt behouden (8,83 keer sneller met een prestatieverlies van 0,01% op VBench). Als een plug-and-play oplossing maakt Jenga praktische, hoogwaardige videogeneratie mogelijk op moderne hardware door de inferentietijd te reduceren van minuten tot seconden — zonder dat modelhertraining vereist is. Code: https://github.com/dvlab-research/Jenga
English
Despite the remarkable generation quality of video Diffusion Transformer
(DiT) models, their practical deployment is severely hindered by extensive
computational requirements. This inefficiency stems from two key challenges:
the quadratic complexity of self-attention with respect to token length and the
multi-step nature of diffusion models. To address these limitations, we present
Jenga, a novel inference pipeline that combines dynamic attention carving with
progressive resolution generation. Our approach leverages two key insights: (1)
early denoising steps do not require high-resolution latents, and (2) later
steps do not require dense attention. Jenga introduces a block-wise attention
mechanism that dynamically selects relevant token interactions using 3D
space-filling curves, alongside a progressive resolution strategy that
gradually increases latent resolution during generation. Experimental results
demonstrate that Jenga achieves substantial speedups across multiple
state-of-the-art video diffusion models while maintaining comparable generation
quality (8.83times speedup with 0.01\% performance drop on VBench). As a
plug-and-play solution, Jenga enables practical, high-quality video generation
on modern hardware by reducing inference time from minutes to seconds --
without requiring model retraining. Code:
https://github.com/dvlab-research/Jenga