LTX-Video: Realtime Video Latente Diffusie
LTX-Video: Realtime Video Latent Diffusion
December 30, 2024
Auteurs: Yoav HaCohen, Nisan Chiprut, Benny Brazowski, Daniel Shalem, Dudu Moshe, Eitan Richardson, Eran Levin, Guy Shiran, Nir Zabari, Ori Gordon, Poriya Panet, Sapir Weissbuch, Victor Kulikov, Yaki Bitterman, Zeev Melumian, Ofir Bibi
cs.AI
Samenvatting
We introduceren LTX-Video, een op transformer gebaseerd latent diffusiemodel dat een holistische benadering van videogeneratie hanteert door naadloos de verantwoordelijkheden van de Video-VAE en de denoising transformer te integreren. In tegenstelling tot bestaande methoden, die deze componenten als onafhankelijk behandelen, streeft LTX-Video ernaar hun interactie te optimaliseren voor verbeterde efficiëntie en kwaliteit. In de kern ervan bevindt zich een zorgvuldig ontworpen Video-VAE die een hoge compressieverhouding van 1:192 bereikt, met spatiotemporele schaling van 32 x 32 x 8 pixels per token, mogelijk gemaakt door de patchificatie-operatie te verplaatsen van de invoer van de transformer naar de invoer van de VAE. Door te werken in deze sterk gecomprimeerde latente ruimte kan de transformer efficiënt volledige spatiotemporele zelfaandacht uitvoeren, wat essentieel is voor het genereren van video's met hoge resolutie en temporele consistentie. Echter, de hoge compressie beperkt inherent de representatie van fijne details. Om dit aan te pakken, krijgt onze VAE-decoder de taak zowel van latente-naar-pixel conversie als van de uiteindelijke denoising stap, waarbij het schone resultaat direct in pixelruimte wordt geproduceerd. Deze benadering behoudt het vermogen om fijne details te genereren zonder de runtime-kosten van een aparte upsampling-module. Ons model ondersteunt diverse toepassingen, waaronder tekst-naar-video en afbeelding-naar-video generatie, waarbij beide mogelijkheden gelijktijdig worden getraind. Het bereikt een snellere-dan-real-time generatie, waarbij het in slechts 2 seconden 5 seconden video van 24 fps genereert op een Nvidia H100 GPU met een resolutie van 768x512, waarbij het alle bestaande modellen van vergelijkbare schaal overtreft. De broncode en vooraf getrainde modellen zijn openbaar beschikbaar, waarmee een nieuwe maatstaf wordt gezet voor toegankelijke en schaalbare videogeneratie.
English
We introduce LTX-Video, a transformer-based latent diffusion model that
adopts a holistic approach to video generation by seamlessly integrating the
responsibilities of the Video-VAE and the denoising transformer. Unlike
existing methods, which treat these components as independent, LTX-Video aims
to optimize their interaction for improved efficiency and quality. At its core
is a carefully designed Video-VAE that achieves a high compression ratio of
1:192, with spatiotemporal downscaling of 32 x 32 x 8 pixels per token, enabled
by relocating the patchifying operation from the transformer's input to the
VAE's input. Operating in this highly compressed latent space enables the
transformer to efficiently perform full spatiotemporal self-attention, which is
essential for generating high-resolution videos with temporal consistency.
However, the high compression inherently limits the representation of fine
details. To address this, our VAE decoder is tasked with both latent-to-pixel
conversion and the final denoising step, producing the clean result directly in
pixel space. This approach preserves the ability to generate fine details
without incurring the runtime cost of a separate upsampling module. Our model
supports diverse use cases, including text-to-video and image-to-video
generation, with both capabilities trained simultaneously. It achieves
faster-than-real-time generation, producing 5 seconds of 24 fps video at
768x512 resolution in just 2 seconds on an Nvidia H100 GPU, outperforming all
existing models of similar scale. The source code and pre-trained models are
publicly available, setting a new benchmark for accessible and scalable video
generation.Summary
AI-Generated Summary