ChatPaper.aiChatPaper

Génération efficace de vidéos sans entraînement via la sculpture dynamique de tokens

Training-Free Efficient Video Generation via Dynamic Token Carving

May 22, 2025
Auteurs: Yuechen Zhang, Jinbo Xing, Bin Xia, Shaoteng Liu, Bohao Peng, Xin Tao, Pengfei Wan, Eric Lo, Jiaya Jia
cs.AI

Résumé

Malgré la qualité remarquable de génération des modèles de Diffusion Transformer (DiT) pour la vidéo, leur déploiement pratique est fortement limité par des exigences computationnelles importantes. Cette inefficacité découle de deux défis majeurs : la complexité quadratique de l'auto-attention par rapport à la longueur des tokens et la nature multi-étapes des modèles de diffusion. Pour surmonter ces limitations, nous présentons Jenga, un pipeline d'inférence novateur qui combine une découpe dynamique de l'attention avec une génération progressive de la résolution. Notre approche s'appuie sur deux idées clés : (1) les premières étapes de débruitage ne nécessitent pas de latents haute résolution, et (2) les étapes ultérieures ne requièrent pas une attention dense. Jenga introduit un mécanisme d'attention par blocs qui sélectionne dynamiquement les interactions pertinentes entre tokens en utilisant des courbes de remplissage d'espace 3D, ainsi qu'une stratégie de résolution progressive qui augmente graduellement la résolution des latents pendant la génération. Les résultats expérimentaux montrent que Jenga permet des accélérations significatives sur plusieurs modèles de diffusion vidéo de pointe tout en maintenant une qualité de génération comparable (accélération de 8,83 fois avec une baisse de performance de 0,01 % sur VBench). En tant que solution plug-and-play, Jenga rend possible une génération vidéo pratique et de haute qualité sur du matériel moderne en réduisant le temps d'inférence de plusieurs minutes à quelques secondes -- sans nécessiter de réentraînement du modèle. Code : https://github.com/dvlab-research/Jenga
English
Despite the remarkable generation quality of video Diffusion Transformer (DiT) models, their practical deployment is severely hindered by extensive computational requirements. This inefficiency stems from two key challenges: the quadratic complexity of self-attention with respect to token length and the multi-step nature of diffusion models. To address these limitations, we present Jenga, a novel inference pipeline that combines dynamic attention carving with progressive resolution generation. Our approach leverages two key insights: (1) early denoising steps do not require high-resolution latents, and (2) later steps do not require dense attention. Jenga introduces a block-wise attention mechanism that dynamically selects relevant token interactions using 3D space-filling curves, alongside a progressive resolution strategy that gradually increases latent resolution during generation. Experimental results demonstrate that Jenga achieves substantial speedups across multiple state-of-the-art video diffusion models while maintaining comparable generation quality (8.83times speedup with 0.01\% performance drop on VBench). As a plug-and-play solution, Jenga enables practical, high-quality video generation on modern hardware by reducing inference time from minutes to seconds -- without requiring model retraining. Code: https://github.com/dvlab-research/Jenga

Summary

AI-Generated Summary

PDF122May 23, 2025