Эффективная генерация видео без обучения с помощью динамического вырезания токенов
Training-Free Efficient Video Generation via Dynamic Token Carving
May 22, 2025
Авторы: Yuechen Zhang, Jinbo Xing, Bin Xia, Shaoteng Liu, Bohao Peng, Xin Tao, Pengfei Wan, Eric Lo, Jiaya Jia
cs.AI
Аннотация
Несмотря на впечатляющее качество генерации видео моделей Diffusion Transformer (DiT), их практическое применение серьезно ограничивается высокими вычислительными требованиями. Эта неэффективность обусловлена двумя ключевыми проблемами: квадратичной сложностью механизма самовнимания относительно длины токенов и многошаговой природой диффузионных моделей. Для устранения этих ограничений мы представляем Jenga — новый конвейер вывода, который сочетает динамическое выделение внимания с генерацией прогрессивного разрешения. Наш подход основывается на двух ключевых идеях: (1) ранние шаги удаления шума не требуют высокого разрешения латентных представлений, и (2) поздние шаги не нуждаются в плотном внимании. Jenga вводит блочный механизм внимания, который динамически выбирает релевантные взаимодействия токенов с использованием 3D пространственно-заполняющих кривых, а также стратегию прогрессивного разрешения, которая постепенно увеличивает разрешение латентных представлений в процессе генерации. Экспериментальные результаты показывают, что Jenga обеспечивает значительное ускорение работы нескольких современных моделей видео-диффузии при сохранении сопоставимого качества генерации (ускорение в 8,83 раза с падением производительности на 0,01% на VBench). Будучи решением типа "подключи и работай", Jenga делает возможной практическую генерацию высококачественного видео на современном оборудовании, сокращая время вывода с минут до секунд — без необходимости переобучения модели. Код: https://github.com/dvlab-research/Jenga
English
Despite the remarkable generation quality of video Diffusion Transformer
(DiT) models, their practical deployment is severely hindered by extensive
computational requirements. This inefficiency stems from two key challenges:
the quadratic complexity of self-attention with respect to token length and the
multi-step nature of diffusion models. To address these limitations, we present
Jenga, a novel inference pipeline that combines dynamic attention carving with
progressive resolution generation. Our approach leverages two key insights: (1)
early denoising steps do not require high-resolution latents, and (2) later
steps do not require dense attention. Jenga introduces a block-wise attention
mechanism that dynamically selects relevant token interactions using 3D
space-filling curves, alongside a progressive resolution strategy that
gradually increases latent resolution during generation. Experimental results
demonstrate that Jenga achieves substantial speedups across multiple
state-of-the-art video diffusion models while maintaining comparable generation
quality (8.83times speedup with 0.01\% performance drop on VBench). As a
plug-and-play solution, Jenga enables practical, high-quality video generation
on modern hardware by reducing inference time from minutes to seconds --
without requiring model retraining. Code:
https://github.com/dvlab-research/JengaSummary
AI-Generated Summary