ChatPaper.aiChatPaper

xGen-VideoSyn-1: Síntesis de Texto a Video de Alta Fidelidad con Representaciones Comprimidas

xGen-VideoSyn-1: High-fidelity Text-to-Video Synthesis with Compressed Representations

August 22, 2024
Autores: Can Qin, Congying Xia, Krithika Ramakrishnan, Michael Ryoo, Lifu Tu, Yihao Feng, Manli Shu, Honglu Zhou, Anas Awadalla, Jun Wang, Senthil Purushwalkam, Le Xue, Yingbo Zhou, Huan Wang, Silvio Savarese, Juan Carlos Niebles, Zeyuan Chen, Ran Xu, Caiming Xiong
cs.AI

Resumen

Presentamos xGen-VideoSyn-1, un modelo generador de texto a video (T2V) capaz de producir escenas realistas a partir de descripciones textuales. Basándonos en avances recientes, como Sora de OpenAI, exploramos la arquitectura del modelo de difusión latente (LDM) e introducimos un autoencoder variacional de video (VidVAE). VidVAE comprime datos de video tanto espacial como temporalmente, reduciendo significativamente la longitud de los tokens visuales y las demandas computacionales asociadas con la generación de videos de secuencias largas. Para abordar aún más los costos computacionales, proponemos una estrategia de dividir y fusionar que mantiene la consistencia temporal entre segmentos de video. Nuestro modelo de Transformador de Difusión (DiT) incorpora capas de autoatención espacial y temporal, permitiendo una generalización robusta a través de diferentes marcos temporales y relaciones de aspecto. Hemos diseñado un pipeline de procesamiento de datos desde el principio y recopilado más de 13 millones de pares de video-texto de alta calidad. El pipeline incluye múltiples pasos como recorte, detección de texto, estimación de movimiento, puntuación estética y subtitulado denso basado en nuestro modelo de video-LLM interno. Entrenar los modelos VidVAE y DiT requirió aproximadamente 40 y 642 días de H100, respectivamente. Nuestro modelo admite la generación de videos de 720p de más de 14 segundos de manera integral y demuestra un rendimiento competitivo frente a modelos T2V de última generación.
English
We present xGen-VideoSyn-1, a text-to-video (T2V) generation model capable of producing realistic scenes from textual descriptions. Building on recent advancements, such as OpenAI's Sora, we explore the latent diffusion model (LDM) architecture and introduce a video variational autoencoder (VidVAE). VidVAE compresses video data both spatially and temporally, significantly reducing the length of visual tokens and the computational demands associated with generating long-sequence videos. To further address the computational costs, we propose a divide-and-merge strategy that maintains temporal consistency across video segments. Our Diffusion Transformer (DiT) model incorporates spatial and temporal self-attention layers, enabling robust generalization across different timeframes and aspect ratios. We have devised a data processing pipeline from the very beginning and collected over 13M high-quality video-text pairs. The pipeline includes multiple steps such as clipping, text detection, motion estimation, aesthetics scoring, and dense captioning based on our in-house video-LLM model. Training the VidVAE and DiT models required approximately 40 and 642 H100 days, respectively. Our model supports over 14-second 720p video generation in an end-to-end way and demonstrates competitive performance against state-of-the-art T2V models.
PDF375November 16, 2024