ChatPaper.aiChatPaper

xGen-VideoSyn-1: Hoogwaardige tekst-naar-video-synthese met gecomprimeerde representaties

xGen-VideoSyn-1: High-fidelity Text-to-Video Synthesis with Compressed Representations

August 22, 2024
Auteurs: Can Qin, Congying Xia, Krithika Ramakrishnan, Michael Ryoo, Lifu Tu, Yihao Feng, Manli Shu, Honglu Zhou, Anas Awadalla, Jun Wang, Senthil Purushwalkam, Le Xue, Yingbo Zhou, Huan Wang, Silvio Savarese, Juan Carlos Niebles, Zeyuan Chen, Ran Xu, Caiming Xiong
cs.AI

Samenvatting

We presenteren xGen-VideoSyn-1, een tekst-naar-video (T2V) generatiemodel dat in staat is realistische scènes te produceren op basis van tekstuele beschrijvingen. Voortbouwend op recente ontwikkelingen, zoals OpenAI's Sora, onderzoeken we de latent diffusion model (LDM) architectuur en introduceren we een video variational autoencoder (VidVAE). VidVAE comprimeert videogegevens zowel ruimtelijk als temporeel, waardoor de lengte van visuele tokens en de rekenkundige eisen die gepaard gaan met het genereren van lange videosequenties aanzienlijk worden verminderd. Om de rekenkosten verder aan te pakken, stellen we een verdeel-en-samenvoeg strategie voor die temporele consistentie over videosegmenten behoudt. Ons Diffusion Transformer (DiT) model bevat ruimtelijke en temporele self-attention lagen, wat robuuste generalisatie over verschillende tijdsframes en beeldverhoudingen mogelijk maakt. We hebben vanaf het begin een gegevensverwerkingspijplijn ontworpen en meer dan 13 miljoen hoogwaardige video-tekst paren verzameld. De pijplijn omvat meerdere stappen, zoals knippen, tekstdetectie, bewegingsschattiging, esthetische beoordeling en dichte beschrijving op basis van ons eigen video-LLM model. Het trainen van de VidVAE en DiT modellen vereiste respectievelijk ongeveer 40 en 642 H100 dagen. Ons model ondersteunt het end-to-end genereren van video's van meer dan 14 seconden in 720p en toont competitieve prestaties in vergelijking met state-of-the-art T2V modellen.
English
We present xGen-VideoSyn-1, a text-to-video (T2V) generation model capable of producing realistic scenes from textual descriptions. Building on recent advancements, such as OpenAI's Sora, we explore the latent diffusion model (LDM) architecture and introduce a video variational autoencoder (VidVAE). VidVAE compresses video data both spatially and temporally, significantly reducing the length of visual tokens and the computational demands associated with generating long-sequence videos. To further address the computational costs, we propose a divide-and-merge strategy that maintains temporal consistency across video segments. Our Diffusion Transformer (DiT) model incorporates spatial and temporal self-attention layers, enabling robust generalization across different timeframes and aspect ratios. We have devised a data processing pipeline from the very beginning and collected over 13M high-quality video-text pairs. The pipeline includes multiple steps such as clipping, text detection, motion estimation, aesthetics scoring, and dense captioning based on our in-house video-LLM model. Training the VidVAE and DiT models required approximately 40 and 642 H100 days, respectively. Our model supports over 14-second 720p video generation in an end-to-end way and demonstrates competitive performance against state-of-the-art T2V models.

Summary

AI-Generated Summary

PDF375November 16, 2024