LTX-Video: Echtzeit-Video Latente Diffusion
LTX-Video: Realtime Video Latent Diffusion
December 30, 2024
Autoren: Yoav HaCohen, Nisan Chiprut, Benny Brazowski, Daniel Shalem, Dudu Moshe, Eitan Richardson, Eran Levin, Guy Shiran, Nir Zabari, Ori Gordon, Poriya Panet, Sapir Weissbuch, Victor Kulikov, Yaki Bitterman, Zeev Melumian, Ofir Bibi
cs.AI
Zusammenfassung
Wir stellen LTX-Video vor, ein auf Transformer basierendes latentes Diffusionsmodell, das einen ganzheitlichen Ansatz zur Videogenerierung verfolgt, indem es die Aufgaben des Video-VAE und des Rauschunterdrückungstransformators nahtlos integriert. Im Gegensatz zu bestehenden Methoden, die diese Komponenten als unabhängig behandeln, zielt LTX-Video darauf ab, ihre Interaktion zur Verbesserung von Effizienz und Qualität zu optimieren. Im Kern steht ein sorgfältig entworfenes Video-VAE, das ein hohes Kompressionsverhältnis von 1:192 erreicht, mit räumlich-zeitlicher Skalierung von 32 x 32 x 8 Pixel pro Token, ermöglicht durch die Verlagerung des Patchifizierungsvorgangs vom Eingang des Transformers zum Eingang des VAE. Die Arbeit in diesem stark komprimierten latenten Raum ermöglicht es dem Transformer, effizient eine vollständige räumlich-zeitliche Selbst-Aufmerksamkeit durchzuführen, was für die Generierung von hochauflösenden Videos mit zeitlicher Konsistenz unerlässlich ist. Die hohe Kompression begrenzt jedoch inhärent die Darstellung feiner Details. Um dies zu lösen, ist unser VAE-Decoder sowohl mit der latenz-zu-Pixel-Konvertierung als auch mit dem abschließenden Rauschunterdrückungsschritt betraut, wodurch das saubere Ergebnis direkt im Pixelraum erzeugt wird. Dieser Ansatz bewahrt die Fähigkeit, feine Details zu generieren, ohne die Laufzeitkosten eines separaten Upsampling-Moduls zu verursachen. Unser Modell unterstützt vielfältige Anwendungsfälle, einschließlich Text-zu-Video und Bild-zu-Video-Generierung, wobei beide Fähigkeiten gleichzeitig trainiert werden. Es erreicht eine Generierung schneller als in Echtzeit, indem es in nur 2 Sekunden auf einer Nvidia H100 GPU 5 Sekunden Video mit 24 fps und einer Auflösung von 768x512 erzeugt, und übertrifft damit alle bestehenden Modelle ähnlicher Größe. Der Quellcode und die vorab trainierten Modelle sind öffentlich verfügbar und setzen einen neuen Maßstab für zugängliche und skalierbare Videogenerierung.
English
We introduce LTX-Video, a transformer-based latent diffusion model that
adopts a holistic approach to video generation by seamlessly integrating the
responsibilities of the Video-VAE and the denoising transformer. Unlike
existing methods, which treat these components as independent, LTX-Video aims
to optimize their interaction for improved efficiency and quality. At its core
is a carefully designed Video-VAE that achieves a high compression ratio of
1:192, with spatiotemporal downscaling of 32 x 32 x 8 pixels per token, enabled
by relocating the patchifying operation from the transformer's input to the
VAE's input. Operating in this highly compressed latent space enables the
transformer to efficiently perform full spatiotemporal self-attention, which is
essential for generating high-resolution videos with temporal consistency.
However, the high compression inherently limits the representation of fine
details. To address this, our VAE decoder is tasked with both latent-to-pixel
conversion and the final denoising step, producing the clean result directly in
pixel space. This approach preserves the ability to generate fine details
without incurring the runtime cost of a separate upsampling module. Our model
supports diverse use cases, including text-to-video and image-to-video
generation, with both capabilities trained simultaneously. It achieves
faster-than-real-time generation, producing 5 seconds of 24 fps video at
768x512 resolution in just 2 seconds on an Nvidia H100 GPU, outperforming all
existing models of similar scale. The source code and pre-trained models are
publicly available, setting a new benchmark for accessible and scalable video
generation.Summary
AI-Generated Summary