Эффективная генерация видео без обучения с помощью динамического вырезания токенов

Аннотация

Несмотря на впечатляющее качество генерации видео моделей Diffusion Transformer (DiT), их практическое применение серьезно ограничивается высокими вычислительными требованиями. Эта неэффективность обусловлена двумя ключевыми проблемами: квадратичной сложностью механизма самовнимания относительно длины токенов и многошаговой природой диффузионных моделей. Для устранения этих ограничений мы представляем Jenga — новый конвейер вывода, который сочетает динамическое выделение внимания с генерацией прогрессивного разрешения. Наш подход основывается на двух ключевых идеях: (1) ранние шаги удаления шума не требуют высокого разрешения латентных представлений, и (2) поздние шаги не нуждаются в плотном внимании. Jenga вводит блочный механизм внимания, который динамически выбирает релевантные взаимодействия токенов с использованием 3D пространственно-заполняющих кривых, а также стратегию прогрессивного разрешения, которая постепенно увеличивает разрешение латентных представлений в процессе генерации. Экспериментальные результаты показывают, что Jenga обеспечивает значительное ускорение работы нескольких современных моделей видео-диффузии при сохранении сопоставимого качества генерации (ускорение в 8,83 раза с падением производительности на 0,01% на VBench). Будучи решением типа "подключи и работай", Jenga делает возможной практическую генерацию высококачественного видео на современном оборудовании, сокращая время вывода с минут до секунд — без необходимости переобучения модели. Код: https://github.com/dvlab-research/Jenga

English

Despite the remarkable generation quality of video Diffusion Transformer (DiT) models, their practical deployment is severely hindered by extensive computational requirements. This inefficiency stems from two key challenges: the quadratic complexity of self-attention with respect to token length and the multi-step nature of diffusion models. To address these limitations, we present Jenga, a novel inference pipeline that combines dynamic attention carving with progressive resolution generation. Our approach leverages two key insights: (1) early denoising steps do not require high-resolution latents, and (2) later steps do not require dense attention. Jenga introduces a block-wise attention mechanism that dynamically selects relevant token interactions using 3D space-filling curves, alongside a progressive resolution strategy that gradually increases latent resolution during generation. Experimental results demonstrate that Jenga achieves substantial speedups across multiple state-of-the-art video diffusion models while maintaining comparable generation quality (8.83times speedup with 0.01\% performance drop on VBench). As a plug-and-play solution, Jenga enables practical, high-quality video generation on modern hardware by reducing inference time from minutes to seconds -- without requiring model retraining. Code: https://github.com/dvlab-research/Jenga

Эффективная генерация видео без обучения с помощью динамического вырезания токенов

Training-Free Efficient Video Generation via Dynamic Token Carving

Аннотация

Support