ChatPaper.aiChatPaper

Эффективная генерация видео без обучения с помощью динамического вырезания токенов

Training-Free Efficient Video Generation via Dynamic Token Carving

May 22, 2025
Авторы: Yuechen Zhang, Jinbo Xing, Bin Xia, Shaoteng Liu, Bohao Peng, Xin Tao, Pengfei Wan, Eric Lo, Jiaya Jia
cs.AI

Аннотация

Несмотря на впечатляющее качество генерации видео моделей Diffusion Transformer (DiT), их практическое применение серьезно ограничивается высокими вычислительными требованиями. Эта неэффективность обусловлена двумя ключевыми проблемами: квадратичной сложностью механизма самовнимания относительно длины токенов и многошаговой природой диффузионных моделей. Для устранения этих ограничений мы представляем Jenga — новый конвейер вывода, который сочетает динамическое выделение внимания с генерацией прогрессивного разрешения. Наш подход основывается на двух ключевых идеях: (1) ранние шаги удаления шума не требуют высокого разрешения латентных представлений, и (2) поздние шаги не нуждаются в плотном внимании. Jenga вводит блочный механизм внимания, который динамически выбирает релевантные взаимодействия токенов с использованием 3D пространственно-заполняющих кривых, а также стратегию прогрессивного разрешения, которая постепенно увеличивает разрешение латентных представлений в процессе генерации. Экспериментальные результаты показывают, что Jenga обеспечивает значительное ускорение работы нескольких современных моделей видео-диффузии при сохранении сопоставимого качества генерации (ускорение в 8,83 раза с падением производительности на 0,01% на VBench). Будучи решением типа "подключи и работай", Jenga делает возможной практическую генерацию высококачественного видео на современном оборудовании, сокращая время вывода с минут до секунд — без необходимости переобучения модели. Код: https://github.com/dvlab-research/Jenga
English
Despite the remarkable generation quality of video Diffusion Transformer (DiT) models, their practical deployment is severely hindered by extensive computational requirements. This inefficiency stems from two key challenges: the quadratic complexity of self-attention with respect to token length and the multi-step nature of diffusion models. To address these limitations, we present Jenga, a novel inference pipeline that combines dynamic attention carving with progressive resolution generation. Our approach leverages two key insights: (1) early denoising steps do not require high-resolution latents, and (2) later steps do not require dense attention. Jenga introduces a block-wise attention mechanism that dynamically selects relevant token interactions using 3D space-filling curves, alongside a progressive resolution strategy that gradually increases latent resolution during generation. Experimental results demonstrate that Jenga achieves substantial speedups across multiple state-of-the-art video diffusion models while maintaining comparable generation quality (8.83times speedup with 0.01\% performance drop on VBench). As a plug-and-play solution, Jenga enables practical, high-quality video generation on modern hardware by reducing inference time from minutes to seconds -- without requiring model retraining. Code: https://github.com/dvlab-research/Jenga

Summary

AI-Generated Summary

PDF122May 23, 2025