xGen-VideoSyn-1: Síntese de Texto para Vídeo de Alta Fidelidade com Representações Comprimidas
xGen-VideoSyn-1: High-fidelity Text-to-Video Synthesis with Compressed Representations
August 22, 2024
Autores: Can Qin, Congying Xia, Krithika Ramakrishnan, Michael Ryoo, Lifu Tu, Yihao Feng, Manli Shu, Honglu Zhou, Anas Awadalla, Jun Wang, Senthil Purushwalkam, Le Xue, Yingbo Zhou, Huan Wang, Silvio Savarese, Juan Carlos Niebles, Zeyuan Chen, Ran Xu, Caiming Xiong
cs.AI
Resumo
Apresentamos xGen-VideoSyn-1, um modelo de geração texto-para-vídeo (T2V) capaz de produzir cenas realistas a partir de descrições textuais. Construindo sobre avanços recentes, como o Sora da OpenAI, exploramos a arquitetura do modelo de difusão latente (LDM) e introduzimos um autoencoder variacional de vídeo (VidVAE). O VidVAE comprime dados de vídeo tanto espacial quanto temporalmente, reduzindo significativamente o comprimento de tokens visuais e as demandas computacionais associadas à geração de vídeos de sequência longa. Para lidar com os custos computacionais, propomos uma estratégia de divisão e fusão que mantém consistência temporal entre segmentos de vídeo. Nosso modelo Transformer de Difusão (DiT) incorpora camadas de autoatenção espacial e temporal, permitindo generalização robusta em diferentes intervalos de tempo e proporções de aspecto. Criamos um pipeline de processamento de dados desde o início e coletamos mais de 13 milhões de pares vídeo-texto de alta qualidade. O pipeline inclui múltiplos passos como recorte, detecção de texto, estimativa de movimento, pontuação estética e legendagem densa com base em nosso modelo de vídeo-LLM interno. O treinamento dos modelos VidVAE e DiT exigiu aproximadamente 40 e 642 dias H100, respectivamente. Nosso modelo suporta geração de vídeo de 720p com mais de 14 segundos de forma integrada e demonstra desempenho competitivo em comparação com modelos T2V de ponta.
English
We present xGen-VideoSyn-1, a text-to-video (T2V) generation model capable of
producing realistic scenes from textual descriptions. Building on recent
advancements, such as OpenAI's Sora, we explore the latent diffusion model
(LDM) architecture and introduce a video variational autoencoder (VidVAE).
VidVAE compresses video data both spatially and temporally, significantly
reducing the length of visual tokens and the computational demands associated
with generating long-sequence videos. To further address the computational
costs, we propose a divide-and-merge strategy that maintains temporal
consistency across video segments. Our Diffusion Transformer (DiT) model
incorporates spatial and temporal self-attention layers, enabling robust
generalization across different timeframes and aspect ratios. We have devised a
data processing pipeline from the very beginning and collected over 13M
high-quality video-text pairs. The pipeline includes multiple steps such as
clipping, text detection, motion estimation, aesthetics scoring, and dense
captioning based on our in-house video-LLM model. Training the VidVAE and DiT
models required approximately 40 and 642 H100 days, respectively. Our model
supports over 14-second 720p video generation in an end-to-end way and
demonstrates competitive performance against state-of-the-art T2V models.Summary
AI-Generated Summary