LTX-Видео: Потоковая диффузия латентного видео
LTX-Video: Realtime Video Latent Diffusion
December 30, 2024
Авторы: Yoav HaCohen, Nisan Chiprut, Benny Brazowski, Daniel Shalem, Dudu Moshe, Eitan Richardson, Eran Levin, Guy Shiran, Nir Zabari, Ori Gordon, Poriya Panet, Sapir Weissbuch, Victor Kulikov, Yaki Bitterman, Zeev Melumian, Ofir Bibi
cs.AI
Аннотация
Мы представляем LTX-Video, модель латентной диффузии на основе трансформера, которая принимает голистический подход к генерации видео, путем плавного интегрирования функций Video-VAE и денойзинг-трансформера. В отличие от существующих методов, которые рассматривают эти компоненты как независимые, LTX-Video нацелен на оптимизацию их взаимодействия для повышения эффективности и качества. В центре модели находится тщательно разработанный Video-VAE, достигающий высокого коэффициента сжатия 1:192, с пространственно-временным уменьшением размера 32 x 32 x 8 пикселей на токен, обеспечиваемым перемещением операции патчификации из входных данных трансформера во входные данные VAE. Работа в этом сильно сжатом латентном пространстве позволяет трансформеру эффективно выполнять полное пространственно-временное самовнимание, что необходимо для генерации видео высокого разрешения с временной последовательностью. Однако высокое сжатие внутренне ограничивает представление мелких деталей. Для решения этой проблемы наш декодер VAE отвечает как за преобразование латентного пространства в пиксели, так и за завершающий шаг денойзинга, производя чистый результат непосредственно в пространстве пикселей. Этот подход сохраняет возможность генерации мелких деталей без дополнительных затрат времени выполнения на отдельный модуль повышения разрешения. Наша модель поддерживает различные сценарии использования, включая генерацию видео из текста и изображений, обученных одновременно обеими способностями. Она достигает генерации быстрее реального времени, создавая видео длительностью 5 секунд с частотой кадров 24 кадра в секунду и разрешением 768x512 всего за 2 секунды на графическом процессоре Nvidia H100, превосходя все существующие модели схожего масштаба. Исходный код и предварительно обученные модели доступны публично, устанавливая новый стандарт доступной и масштабируемой генерации видео.
English
We introduce LTX-Video, a transformer-based latent diffusion model that
adopts a holistic approach to video generation by seamlessly integrating the
responsibilities of the Video-VAE and the denoising transformer. Unlike
existing methods, which treat these components as independent, LTX-Video aims
to optimize their interaction for improved efficiency and quality. At its core
is a carefully designed Video-VAE that achieves a high compression ratio of
1:192, with spatiotemporal downscaling of 32 x 32 x 8 pixels per token, enabled
by relocating the patchifying operation from the transformer's input to the
VAE's input. Operating in this highly compressed latent space enables the
transformer to efficiently perform full spatiotemporal self-attention, which is
essential for generating high-resolution videos with temporal consistency.
However, the high compression inherently limits the representation of fine
details. To address this, our VAE decoder is tasked with both latent-to-pixel
conversion and the final denoising step, producing the clean result directly in
pixel space. This approach preserves the ability to generate fine details
without incurring the runtime cost of a separate upsampling module. Our model
supports diverse use cases, including text-to-video and image-to-video
generation, with both capabilities trained simultaneously. It achieves
faster-than-real-time generation, producing 5 seconds of 24 fps video at
768x512 resolution in just 2 seconds on an Nvidia H100 GPU, outperforming all
existing models of similar scale. The source code and pre-trained models are
publicly available, setting a new benchmark for accessible and scalable video
generation.Summary
AI-Generated Summary