ChatPaper.aiChatPaper

xGen-VideoSyn-1: Sintesi Video da Testo ad Alta Fedeltà con Rappresentazioni Compresse

xGen-VideoSyn-1: High-fidelity Text-to-Video Synthesis with Compressed Representations

August 22, 2024
Autori: Can Qin, Congying Xia, Krithika Ramakrishnan, Michael Ryoo, Lifu Tu, Yihao Feng, Manli Shu, Honglu Zhou, Anas Awadalla, Jun Wang, Senthil Purushwalkam, Le Xue, Yingbo Zhou, Huan Wang, Silvio Savarese, Juan Carlos Niebles, Zeyuan Chen, Ran Xu, Caiming Xiong
cs.AI

Abstract

Presentiamo xGen-VideoSyn-1, un modello di generazione testo-video (T2V) in grado di produrre scene realistiche a partire da descrizioni testuali. Basandoci sui recenti progressi, come Sora di OpenAI, esploriamo l'architettura del modello di diffusione latente (LDM) e introduciamo un autoencoder variazionale per video (VidVAE). VidVAE comprime i dati video sia spazialmente che temporalmente, riducendo significativamente la lunghezza dei token visivi e le esigenze computazionali associate alla generazione di video a sequenza lunga. Per affrontare ulteriormente i costi computazionali, proponiamo una strategia di divisione e fusione che mantiene la coerenza temporale tra i segmenti video. Il nostro modello Transformer di Diffusione (DiT) incorpora livelli di auto-attenzione spaziale e temporale, consentendo una robusta generalizzazione su diversi intervalli temporali e rapporti d'aspetto. Abbiamo progettato una pipeline di elaborazione dati fin dall'inizio e raccolto oltre 13 milioni di coppie video-testo di alta qualità. La pipeline include molteplici passaggi come il clipping, il rilevamento del testo, la stima del movimento, la valutazione estetica e la creazione di didascalie dense basate sul nostro modello video-LLM interno. L'addestramento dei modelli VidVAE e DiT ha richiesto rispettivamente circa 40 e 642 giorni H100. Il nostro modello supporta la generazione end-to-end di video 720p per oltre 14 secondi e dimostra prestazioni competitive rispetto ai modelli T2V all'avanguardia.
English
We present xGen-VideoSyn-1, a text-to-video (T2V) generation model capable of producing realistic scenes from textual descriptions. Building on recent advancements, such as OpenAI's Sora, we explore the latent diffusion model (LDM) architecture and introduce a video variational autoencoder (VidVAE). VidVAE compresses video data both spatially and temporally, significantly reducing the length of visual tokens and the computational demands associated with generating long-sequence videos. To further address the computational costs, we propose a divide-and-merge strategy that maintains temporal consistency across video segments. Our Diffusion Transformer (DiT) model incorporates spatial and temporal self-attention layers, enabling robust generalization across different timeframes and aspect ratios. We have devised a data processing pipeline from the very beginning and collected over 13M high-quality video-text pairs. The pipeline includes multiple steps such as clipping, text detection, motion estimation, aesthetics scoring, and dense captioning based on our in-house video-LLM model. Training the VidVAE and DiT models required approximately 40 and 642 H100 days, respectively. Our model supports over 14-second 720p video generation in an end-to-end way and demonstrates competitive performance against state-of-the-art T2V models.
PDF365November 16, 2024