Effiziente videobasierte Generierung ohne Training durch dynamische Token-Bearbeitung
Training-Free Efficient Video Generation via Dynamic Token Carving
May 22, 2025
Autoren: Yuechen Zhang, Jinbo Xing, Bin Xia, Shaoteng Liu, Bohao Peng, Xin Tao, Pengfei Wan, Eric Lo, Jiaya Jia
cs.AI
Zusammenfassung
Trotz der bemerkenswerten Generierungsqualität von Video-Diffusion-Transformer (DiT)-Modellen wird ihre praktische Anwendung durch umfangreiche Rechenanforderungen erheblich behindert. Diese Ineffizienz resultiert aus zwei zentralen Herausforderungen: der quadratischen Komplexität der Selbstaufmerksamkeit in Bezug auf die Token-Länge und der Mehrschritt-Natur von Diffusionsmodellen. Um diese Einschränkungen zu überwinden, präsentieren wir Jenga, eine neuartige Inferenz-Pipeline, die dynamische Aufmerksamkeitsreduzierung mit progressiver Auflösungsgenerierung kombiniert. Unser Ansatz nutzt zwei wesentliche Erkenntnisse: (1) frühe Entrauschungsschritte benötigen keine hochauflösenden Latents, und (2) spätere Schritte erfordern keine dichte Aufmerksamkeit. Jenga führt einen blockweisen Aufmerksamkeitsmechanismus ein, der relevante Token-Interaktionen mithilfe von 3D-Raumfüllkurven dynamisch auswählt, sowie eine progressive Auflösungsstrategie, die die Latent-Auflösung während der Generierung schrittweise erhöht. Experimentelle Ergebnisse zeigen, dass Jenga erhebliche Beschleunigungen bei mehreren state-of-the-art Video-Diffusionsmodellen erreicht, während die vergleichbare Generierungsqualität erhalten bleibt (8,83-fache Beschleunigung mit einem Leistungsabfall von 0,01 % auf VBench). Als Plug-and-Play-Lösung ermöglicht Jenga eine praktische, hochwertige Videogenerierung auf moderner Hardware, indem die Inferenzzeit von Minuten auf Sekunden reduziert wird – ohne dass eine Modellneuanpassung erforderlich ist. Code: https://github.com/dvlab-research/Jenga
English
Despite the remarkable generation quality of video Diffusion Transformer
(DiT) models, their practical deployment is severely hindered by extensive
computational requirements. This inefficiency stems from two key challenges:
the quadratic complexity of self-attention with respect to token length and the
multi-step nature of diffusion models. To address these limitations, we present
Jenga, a novel inference pipeline that combines dynamic attention carving with
progressive resolution generation. Our approach leverages two key insights: (1)
early denoising steps do not require high-resolution latents, and (2) later
steps do not require dense attention. Jenga introduces a block-wise attention
mechanism that dynamically selects relevant token interactions using 3D
space-filling curves, alongside a progressive resolution strategy that
gradually increases latent resolution during generation. Experimental results
demonstrate that Jenga achieves substantial speedups across multiple
state-of-the-art video diffusion models while maintaining comparable generation
quality (8.83times speedup with 0.01\% performance drop on VBench). As a
plug-and-play solution, Jenga enables practical, high-quality video generation
on modern hardware by reducing inference time from minutes to seconds --
without requiring model retraining. Code:
https://github.com/dvlab-research/JengaSummary
AI-Generated Summary