xGen-VideoSyn-1: Sintesi Video da Testo ad Alta Fedeltà con Rappresentazioni Compresse

Abstract

Presentiamo xGen-VideoSyn-1, un modello di generazione testo-video (T2V) in grado di produrre scene realistiche a partire da descrizioni testuali. Basandoci sui recenti progressi, come Sora di OpenAI, esploriamo l'architettura del modello di diffusione latente (LDM) e introduciamo un autoencoder variazionale per video (VidVAE). VidVAE comprime i dati video sia spazialmente che temporalmente, riducendo significativamente la lunghezza dei token visivi e le esigenze computazionali associate alla generazione di video a sequenza lunga. Per affrontare ulteriormente i costi computazionali, proponiamo una strategia di divisione e fusione che mantiene la coerenza temporale tra i segmenti video. Il nostro modello Transformer di Diffusione (DiT) incorpora livelli di auto-attenzione spaziale e temporale, consentendo una robusta generalizzazione su diversi intervalli temporali e rapporti d'aspetto. Abbiamo progettato una pipeline di elaborazione dati fin dall'inizio e raccolto oltre 13 milioni di coppie video-testo di alta qualità. La pipeline include molteplici passaggi come il clipping, il rilevamento del testo, la stima del movimento, la valutazione estetica e la creazione di didascalie dense basate sul nostro modello video-LLM interno. L'addestramento dei modelli VidVAE e DiT ha richiesto rispettivamente circa 40 e 642 giorni H100. Il nostro modello supporta la generazione end-to-end di video 720p per oltre 14 secondi e dimostra prestazioni competitive rispetto ai modelli T2V all'avanguardia.

English

We present xGen-VideoSyn-1, a text-to-video (T2V) generation model capable of producing realistic scenes from textual descriptions. Building on recent advancements, such as OpenAI's Sora, we explore the latent diffusion model (LDM) architecture and introduce a video variational autoencoder (VidVAE). VidVAE compresses video data both spatially and temporally, significantly reducing the length of visual tokens and the computational demands associated with generating long-sequence videos. To further address the computational costs, we propose a divide-and-merge strategy that maintains temporal consistency across video segments. Our Diffusion Transformer (DiT) model incorporates spatial and temporal self-attention layers, enabling robust generalization across different timeframes and aspect ratios. We have devised a data processing pipeline from the very beginning and collected over 13M high-quality video-text pairs. The pipeline includes multiple steps such as clipping, text detection, motion estimation, aesthetics scoring, and dense captioning based on our in-house video-LLM model. Training the VidVAE and DiT models required approximately 40 and 642 H100 days, respectively. Our model supports over 14-second 720p video generation in an end-to-end way and demonstrates competitive performance against state-of-the-art T2V models.

xGen-VideoSyn-1: Sintesi Video da Testo ad Alta Fedeltà con Rappresentazioni Compresse

xGen-VideoSyn-1: High-fidelity Text-to-Video Synthesis with Compressed Representations

Abstract

Support