ChatPaper.aiChatPaper

LTX-Video: Difusión Latente en Tiempo Real de Videos

LTX-Video: Realtime Video Latent Diffusion

December 30, 2024
Autores: Yoav HaCohen, Nisan Chiprut, Benny Brazowski, Daniel Shalem, Dudu Moshe, Eitan Richardson, Eran Levin, Guy Shiran, Nir Zabari, Ori Gordon, Poriya Panet, Sapir Weissbuch, Victor Kulikov, Yaki Bitterman, Zeev Melumian, Ofir Bibi
cs.AI

Resumen

Presentamos LTX-Video, un modelo de difusión latente basado en transformadores que adopta un enfoque holístico para la generación de videos al integrar de manera fluida las responsabilidades del Video-VAE y el transformador de eliminación de ruido. A diferencia de los métodos existentes, que tratan estos componentes como independientes, LTX-Video tiene como objetivo optimizar su interacción para mejorar la eficiencia y la calidad. En su núcleo se encuentra un Video-VAE cuidadosamente diseñado que logra una alta relación de compresión de 1:192, con un escalado espacio-temporal de 32 x 32 x 8 píxeles por token, habilitado al trasladar la operación de fragmentación desde la entrada del transformador a la entrada del VAE. Operar en este espacio latente altamente comprimido permite al transformador realizar de manera eficiente una autoatención espacio-temporal completa, esencial para generar videos de alta resolución con consistencia temporal. Sin embargo, la alta compresión limita inherentemente la representación de detalles finos. Para abordar esto, nuestro decodificador VAE se encarga tanto de la conversión de latente a píxel como del paso final de eliminación de ruido, produciendo el resultado limpio directamente en el espacio de píxeles. Este enfoque preserva la capacidad de generar detalles finos sin incurrir en el costo de tiempo de ejecución de un módulo de aumento de muestreo separado. Nuestro modelo admite diversos casos de uso, incluida la generación de texto a video y de imagen a video, con ambas capacidades entrenadas simultáneamente. Logra una generación más rápida que en tiempo real, produciendo 5 segundos de video a 24 fps y resolución de 768x512 en solo 2 segundos en una GPU Nvidia H100, superando a todos los modelos existentes de escala similar. El código fuente y los modelos pre-entrenados están disponibles públicamente, estableciendo un nuevo punto de referencia para la generación de videos accesible y escalable.
English
We introduce LTX-Video, a transformer-based latent diffusion model that adopts a holistic approach to video generation by seamlessly integrating the responsibilities of the Video-VAE and the denoising transformer. Unlike existing methods, which treat these components as independent, LTX-Video aims to optimize their interaction for improved efficiency and quality. At its core is a carefully designed Video-VAE that achieves a high compression ratio of 1:192, with spatiotemporal downscaling of 32 x 32 x 8 pixels per token, enabled by relocating the patchifying operation from the transformer's input to the VAE's input. Operating in this highly compressed latent space enables the transformer to efficiently perform full spatiotemporal self-attention, which is essential for generating high-resolution videos with temporal consistency. However, the high compression inherently limits the representation of fine details. To address this, our VAE decoder is tasked with both latent-to-pixel conversion and the final denoising step, producing the clean result directly in pixel space. This approach preserves the ability to generate fine details without incurring the runtime cost of a separate upsampling module. Our model supports diverse use cases, including text-to-video and image-to-video generation, with both capabilities trained simultaneously. It achieves faster-than-real-time generation, producing 5 seconds of 24 fps video at 768x512 resolution in just 2 seconds on an Nvidia H100 GPU, outperforming all existing models of similar scale. The source code and pre-trained models are publicly available, setting a new benchmark for accessible and scalable video generation.

Summary

AI-Generated Summary

PDF473January 3, 2025