Geração Eficiente de Vídeos sem Treinamento via Escultura Dinâmica de Tokens
Training-Free Efficient Video Generation via Dynamic Token Carving
May 22, 2025
Autores: Yuechen Zhang, Jinbo Xing, Bin Xia, Shaoteng Liu, Bohao Peng, Xin Tao, Pengfei Wan, Eric Lo, Jiaya Jia
cs.AI
Resumo
Apesar da qualidade notável de geração dos modelos de Transformadores de Difusão de Vídeo (DiT), sua implantação prática é severamente limitada pelos extensos requisitos computacionais. Essa ineficiência decorre de dois desafios principais: a complexidade quadrática da auto-atenção em relação ao comprimento dos tokens e a natureza de múltiplos passos dos modelos de difusão. Para abordar essas limitações, apresentamos o Jenga, um pipeline de inferência inovador que combina o recorte dinâmico de atenção com a geração progressiva de resolução. Nossa abordagem aproveita dois insights fundamentais: (1) os passos iniciais de remoção de ruído não exigem latentes de alta resolução, e (2) os passos posteriores não exigem atenção densa. O Jenga introduz um mecanismo de atenção em blocos que seleciona dinamicamente as interações relevantes entre tokens usando curvas de preenchimento de espaço 3D, juntamente com uma estratégia de resolução progressiva que aumenta gradualmente a resolução latente durante a geração. Resultados experimentais demonstram que o Jenga alcança acelerações significativas em vários modelos de difusão de vídeo de última geração, mantendo uma qualidade de geração comparável (8,83 vezes mais rápido com uma queda de desempenho de 0,01% no VBench). Como uma solução plug-and-play, o Jenga possibilita a geração prática e de alta qualidade de vídeos em hardware moderno, reduzindo o tempo de inferência de minutos para segundos — sem exigir retreinamento do modelo. Código: https://github.com/dvlab-research/Jenga
English
Despite the remarkable generation quality of video Diffusion Transformer
(DiT) models, their practical deployment is severely hindered by extensive
computational requirements. This inefficiency stems from two key challenges:
the quadratic complexity of self-attention with respect to token length and the
multi-step nature of diffusion models. To address these limitations, we present
Jenga, a novel inference pipeline that combines dynamic attention carving with
progressive resolution generation. Our approach leverages two key insights: (1)
early denoising steps do not require high-resolution latents, and (2) later
steps do not require dense attention. Jenga introduces a block-wise attention
mechanism that dynamically selects relevant token interactions using 3D
space-filling curves, alongside a progressive resolution strategy that
gradually increases latent resolution during generation. Experimental results
demonstrate that Jenga achieves substantial speedups across multiple
state-of-the-art video diffusion models while maintaining comparable generation
quality (8.83times speedup with 0.01\% performance drop on VBench). As a
plug-and-play solution, Jenga enables practical, high-quality video generation
on modern hardware by reducing inference time from minutes to seconds --
without requiring model retraining. Code:
https://github.com/dvlab-research/Jenga