xGen-VideoSyn-1: Síntesis de Texto a Video de Alta Fidelidad con Representaciones Comprimidas

Resumen

Presentamos xGen-VideoSyn-1, un modelo generador de texto a video (T2V) capaz de producir escenas realistas a partir de descripciones textuales. Basándonos en avances recientes, como Sora de OpenAI, exploramos la arquitectura del modelo de difusión latente (LDM) e introducimos un autoencoder variacional de video (VidVAE). VidVAE comprime datos de video tanto espacial como temporalmente, reduciendo significativamente la longitud de los tokens visuales y las demandas computacionales asociadas con la generación de videos de secuencias largas. Para abordar aún más los costos computacionales, proponemos una estrategia de dividir y fusionar que mantiene la consistencia temporal entre segmentos de video. Nuestro modelo de Transformador de Difusión (DiT) incorpora capas de autoatención espacial y temporal, permitiendo una generalización robusta a través de diferentes marcos temporales y relaciones de aspecto. Hemos diseñado un pipeline de procesamiento de datos desde el principio y recopilado más de 13 millones de pares de video-texto de alta calidad. El pipeline incluye múltiples pasos como recorte, detección de texto, estimación de movimiento, puntuación estética y subtitulado denso basado en nuestro modelo de video-LLM interno. Entrenar los modelos VidVAE y DiT requirió aproximadamente 40 y 642 días de H100, respectivamente. Nuestro modelo admite la generación de videos de 720p de más de 14 segundos de manera integral y demuestra un rendimiento competitivo frente a modelos T2V de última generación.

English

We present xGen-VideoSyn-1, a text-to-video (T2V) generation model capable of producing realistic scenes from textual descriptions. Building on recent advancements, such as OpenAI's Sora, we explore the latent diffusion model (LDM) architecture and introduce a video variational autoencoder (VidVAE). VidVAE compresses video data both spatially and temporally, significantly reducing the length of visual tokens and the computational demands associated with generating long-sequence videos. To further address the computational costs, we propose a divide-and-merge strategy that maintains temporal consistency across video segments. Our Diffusion Transformer (DiT) model incorporates spatial and temporal self-attention layers, enabling robust generalization across different timeframes and aspect ratios. We have devised a data processing pipeline from the very beginning and collected over 13M high-quality video-text pairs. The pipeline includes multiple steps such as clipping, text detection, motion estimation, aesthetics scoring, and dense captioning based on our in-house video-LLM model. Training the VidVAE and DiT models required approximately 40 and 642 H100 days, respectively. Our model supports over 14-second 720p video generation in an end-to-end way and demonstrates competitive performance against state-of-the-art T2V models.

xGen-VideoSyn-1: Síntesis de Texto a Video de Alta Fidelidad con Representaciones Comprimidas

xGen-VideoSyn-1: High-fidelity Text-to-Video Synthesis with Compressed Representations

Resumen

Support