xGen-VideoSyn-1 : Synthèse de haute fidélité de texte en vidéo avec des représentations compressées
xGen-VideoSyn-1: High-fidelity Text-to-Video Synthesis with Compressed Representations
August 22, 2024
Auteurs: Can Qin, Congying Xia, Krithika Ramakrishnan, Michael Ryoo, Lifu Tu, Yihao Feng, Manli Shu, Honglu Zhou, Anas Awadalla, Jun Wang, Senthil Purushwalkam, Le Xue, Yingbo Zhou, Huan Wang, Silvio Savarese, Juan Carlos Niebles, Zeyuan Chen, Ran Xu, Caiming Xiong
cs.AI
Résumé
Nous présentons xGen-VideoSyn-1, un modèle de génération texte-vidéo (T2V) capable de produire des scènes réalistes à partir de descriptions textuelles. S'appuyant sur des avancées récentes, telles que Sora d'OpenAI, nous explorons l'architecture du modèle de diffusion latente (LDM) et introduisons un autoencodeur variationnel vidéo (VidVAE). VidVAE compresse les données vidéo à la fois spatialement et temporellement, réduisant significativement la longueur des jetons visuels et les exigences computationnelles associées à la génération de vidéos à longue séquence. Pour aborder davantage les coûts computationnels, nous proposons une stratégie de division et fusion qui maintient la cohérence temporelle entre les segments vidéo. Notre modèle de Transformer de Diffusion (DiT) intègre des couches d'auto-attention spatiale et temporelle, permettant une généralisation robuste à travers différents intervalles de temps et ratios d'aspect. Nous avons conçu un pipeline de traitement des données dès le début et collecté plus de 13 millions de paires vidéo-texte de haute qualité. Le pipeline comprend plusieurs étapes telles que le rognage, la détection de texte, l'estimation de mouvement, l'évaluation esthétique, et le sous-titrage dense basé sur notre modèle vidéo-LLM interne. L'entraînement des modèles VidVAE et DiT a nécessité environ 40 et 642 jours H100, respectivement. Notre modèle prend en charge la génération de vidéos 720p de plus de 14 secondes de manière intégrale et démontre des performances compétitives par rapport aux modèles T2V de pointe.
English
We present xGen-VideoSyn-1, a text-to-video (T2V) generation model capable of
producing realistic scenes from textual descriptions. Building on recent
advancements, such as OpenAI's Sora, we explore the latent diffusion model
(LDM) architecture and introduce a video variational autoencoder (VidVAE).
VidVAE compresses video data both spatially and temporally, significantly
reducing the length of visual tokens and the computational demands associated
with generating long-sequence videos. To further address the computational
costs, we propose a divide-and-merge strategy that maintains temporal
consistency across video segments. Our Diffusion Transformer (DiT) model
incorporates spatial and temporal self-attention layers, enabling robust
generalization across different timeframes and aspect ratios. We have devised a
data processing pipeline from the very beginning and collected over 13M
high-quality video-text pairs. The pipeline includes multiple steps such as
clipping, text detection, motion estimation, aesthetics scoring, and dense
captioning based on our in-house video-LLM model. Training the VidVAE and DiT
models required approximately 40 and 642 H100 days, respectively. Our model
supports over 14-second 720p video generation in an end-to-end way and
demonstrates competitive performance against state-of-the-art T2V models.Summary
AI-Generated Summary