xGen-VideoSyn-1: Hochwertige Text-zu-Video-Synthese mit komprimierten Repräsentationen

papers.abstract

Wir präsentieren xGen-VideoSyn-1, ein Text-zu-Video (T2V) Generierungsmodell, das in der Lage ist, realistische Szenen aus textuellen Beschreibungen zu erzeugen. Aufbauend auf jüngsten Fortschritten wie OpenAI's Sora, erforschen wir die Latent Diffusion Model (LDM) Architektur und führen einen Video-Variationalen Autoencoder (VidVAE) ein. VidVAE komprimiert Videodaten sowohl räumlich als auch zeitlich und reduziert signifikant die Länge visueller Tokens und die Rechenanforderungen, die mit der Generierung von langen Sequenzvideos verbunden sind. Um die Rechenkosten weiter zu reduzieren, schlagen wir eine Teile-und-Zusammenführen-Strategie vor, die die zeitliche Konsistenz über Videosegmente hinweg aufrechterhält. Unser Diffusion Transformer (DiT) Modell integriert räumliche und zeitliche Self-Attention-Schichten, die eine robuste Verallgemeinerung über verschiedene Zeitrahmen und Seitenverhältnisse ermöglichen. Wir haben eine Datenverarbeitungspipeline von Anfang an entwickelt und über 13 Millionen hochwertige Video-Text-Paare gesammelt. Die Pipeline umfasst mehrere Schritte wie Clipping, Texterkennung, Bewegungsschätzung, ästhetische Bewertung und dichte Untertitelung basierend auf unserem hauseigenen Video-LLM-Modell. Das Training der VidVAE- und DiT-Modelle erforderte jeweils etwa 40 und 642 H100-Tage. Unser Modell unterstützt die Generierung von über 14-sekündigen 720p-Videos auf eine durchgängige Weise und zeigt eine wettbewerbsfähige Leistung gegenüber modernsten T2V-Modellen.

English

We present xGen-VideoSyn-1, a text-to-video (T2V) generation model capable of producing realistic scenes from textual descriptions. Building on recent advancements, such as OpenAI's Sora, we explore the latent diffusion model (LDM) architecture and introduce a video variational autoencoder (VidVAE). VidVAE compresses video data both spatially and temporally, significantly reducing the length of visual tokens and the computational demands associated with generating long-sequence videos. To further address the computational costs, we propose a divide-and-merge strategy that maintains temporal consistency across video segments. Our Diffusion Transformer (DiT) model incorporates spatial and temporal self-attention layers, enabling robust generalization across different timeframes and aspect ratios. We have devised a data processing pipeline from the very beginning and collected over 13M high-quality video-text pairs. The pipeline includes multiple steps such as clipping, text detection, motion estimation, aesthetics scoring, and dense captioning based on our in-house video-LLM model. Training the VidVAE and DiT models required approximately 40 and 642 H100 days, respectively. Our model supports over 14-second 720p video generation in an end-to-end way and demonstrates competitive performance against state-of-the-art T2V models.

xGen-VideoSyn-1: Hochwertige Text-zu-Video-Synthese mit komprimierten Repräsentationen

xGen-VideoSyn-1: High-fidelity Text-to-Video Synthesis with Compressed Representations

papers.abstract

Support