ChatPaper.aiChatPaper

Generación eficiente de videos sin entrenamiento mediante tallado dinámico de tokens

Training-Free Efficient Video Generation via Dynamic Token Carving

May 22, 2025
Autores: Yuechen Zhang, Jinbo Xing, Bin Xia, Shaoteng Liu, Bohao Peng, Xin Tao, Pengfei Wan, Eric Lo, Jiaya Jia
cs.AI

Resumen

A pesar de la notable calidad de generación de los modelos de Transformador de Difusión de Video (DiT), su implementación práctica se ve severamente limitada por los extensos requisitos computacionales. Esta ineficiencia surge de dos desafíos clave: la complejidad cuadrática de la autoatención con respecto a la longitud de los tokens y la naturaleza de múltiples pasos de los modelos de difusión. Para abordar estas limitaciones, presentamos Jenga, una novedosa canalización de inferencia que combina el tallado dinámico de atención con la generación progresiva de resolución. Nuestro enfoque aprovecha dos ideas fundamentales: (1) los primeros pasos de eliminación de ruido no requieren latentes de alta resolución, y (2) los pasos posteriores no requieren atención densa. Jenga introduce un mecanismo de atención por bloques que selecciona dinámicamente las interacciones relevantes de los tokens utilizando curvas de llenado de espacio 3D, junto con una estrategia de resolución progresiva que aumenta gradualmente la resolución de los latentes durante la generación. Los resultados experimentales demuestran que Jenga logra aceleraciones significativas en múltiples modelos de difusión de video de última generación, manteniendo una calidad de generación comparable (8.83 veces más rápido con una caída del 0.01% en el rendimiento en VBench). Como una solución plug-and-play, Jenga permite la generación práctica y de alta calidad de videos en hardware moderno, reduciendo el tiempo de inferencia de minutos a segundos, sin requerir reentrenamiento del modelo. Código: https://github.com/dvlab-research/Jenga
English
Despite the remarkable generation quality of video Diffusion Transformer (DiT) models, their practical deployment is severely hindered by extensive computational requirements. This inefficiency stems from two key challenges: the quadratic complexity of self-attention with respect to token length and the multi-step nature of diffusion models. To address these limitations, we present Jenga, a novel inference pipeline that combines dynamic attention carving with progressive resolution generation. Our approach leverages two key insights: (1) early denoising steps do not require high-resolution latents, and (2) later steps do not require dense attention. Jenga introduces a block-wise attention mechanism that dynamically selects relevant token interactions using 3D space-filling curves, alongside a progressive resolution strategy that gradually increases latent resolution during generation. Experimental results demonstrate that Jenga achieves substantial speedups across multiple state-of-the-art video diffusion models while maintaining comparable generation quality (8.83times speedup with 0.01\% performance drop on VBench). As a plug-and-play solution, Jenga enables practical, high-quality video generation on modern hardware by reducing inference time from minutes to seconds -- without requiring model retraining. Code: https://github.com/dvlab-research/Jenga

Summary

AI-Generated Summary

PDF122May 23, 2025