LTX-Vidéo : Diffusion Latente en Temps Réel de Vidéo
LTX-Video: Realtime Video Latent Diffusion
December 30, 2024
Auteurs: Yoav HaCohen, Nisan Chiprut, Benny Brazowski, Daniel Shalem, Dudu Moshe, Eitan Richardson, Eran Levin, Guy Shiran, Nir Zabari, Ori Gordon, Poriya Panet, Sapir Weissbuch, Victor Kulikov, Yaki Bitterman, Zeev Melumian, Ofir Bibi
cs.AI
Résumé
Nous présentons LTX-Video, un modèle de diffusion latente basé sur un transformateur qui adopte une approche holistique de la génération vidéo en intégrant de manière transparente les responsabilités du Video-VAE et du transformateur de débruitage. Contrairement aux méthodes existantes, qui traitent ces composants de manière indépendante, LTX-Video vise à optimiser leur interaction pour améliorer l'efficacité et la qualité. À sa base se trouve un Video-VAE soigneusement conçu qui atteint un taux de compression élevé de 1:192, avec une réduction spatiotemporelle de 32 x 32 x 8 pixels par jeton, rendue possible en déplaçant l'opération de patchification de l'entrée du transformateur vers l'entrée du VAE. En opérant dans cet espace latent hautement compressé, le transformateur peut effectuer efficacement une auto-attention spatiotemporelle complète, essentielle pour générer des vidéos haute résolution avec une cohérence temporelle. Cependant, la compression élevée limite intrinsèquement la représentation des détails fins. Pour remédier à cela, notre décodeur VAE est chargé à la fois de la conversion latente en pixel et de l'étape finale de débruitage, produisant directement le résultat propre dans l'espace pixel. Cette approche préserve la capacité de générer des détails fins sans entraîner le coût d'exécution d'un module de suréchantillonnage séparé. Notre modèle prend en charge divers cas d'utilisation, notamment la génération de texte en vidéo et d'image en vidéo, avec les deux capacités formées simultanément. Il atteint une génération plus rapide que le temps réel, produisant 5 secondes de vidéo à 24 images par seconde en résolution 768x512 en seulement 2 secondes sur un GPU Nvidia H100, surpassant tous les modèles existants de taille similaire. Le code source et les modèles pré-entraînés sont disponibles publiquement, établissant une nouvelle référence pour une génération vidéo accessible et évolutive.
English
We introduce LTX-Video, a transformer-based latent diffusion model that
adopts a holistic approach to video generation by seamlessly integrating the
responsibilities of the Video-VAE and the denoising transformer. Unlike
existing methods, which treat these components as independent, LTX-Video aims
to optimize their interaction for improved efficiency and quality. At its core
is a carefully designed Video-VAE that achieves a high compression ratio of
1:192, with spatiotemporal downscaling of 32 x 32 x 8 pixels per token, enabled
by relocating the patchifying operation from the transformer's input to the
VAE's input. Operating in this highly compressed latent space enables the
transformer to efficiently perform full spatiotemporal self-attention, which is
essential for generating high-resolution videos with temporal consistency.
However, the high compression inherently limits the representation of fine
details. To address this, our VAE decoder is tasked with both latent-to-pixel
conversion and the final denoising step, producing the clean result directly in
pixel space. This approach preserves the ability to generate fine details
without incurring the runtime cost of a separate upsampling module. Our model
supports diverse use cases, including text-to-video and image-to-video
generation, with both capabilities trained simultaneously. It achieves
faster-than-real-time generation, producing 5 seconds of 24 fps video at
768x512 resolution in just 2 seconds on an Nvidia H100 GPU, outperforming all
existing models of similar scale. The source code and pre-trained models are
publicly available, setting a new benchmark for accessible and scalable video
generation.Summary
AI-Generated Summary