xGen-VideoSyn-1 : Synthèse de haute fidélité de texte en vidéo avec des représentations compressées

papers.abstract

Nous présentons xGen-VideoSyn-1, un modèle de génération texte-vidéo (T2V) capable de produire des scènes réalistes à partir de descriptions textuelles. S'appuyant sur des avancées récentes, telles que Sora d'OpenAI, nous explorons l'architecture du modèle de diffusion latente (LDM) et introduisons un autoencodeur variationnel vidéo (VidVAE). VidVAE compresse les données vidéo à la fois spatialement et temporellement, réduisant significativement la longueur des jetons visuels et les exigences computationnelles associées à la génération de vidéos à longue séquence. Pour aborder davantage les coûts computationnels, nous proposons une stratégie de division et fusion qui maintient la cohérence temporelle entre les segments vidéo. Notre modèle de Transformer de Diffusion (DiT) intègre des couches d'auto-attention spatiale et temporelle, permettant une généralisation robuste à travers différents intervalles de temps et ratios d'aspect. Nous avons conçu un pipeline de traitement des données dès le début et collecté plus de 13 millions de paires vidéo-texte de haute qualité. Le pipeline comprend plusieurs étapes telles que le rognage, la détection de texte, l'estimation de mouvement, l'évaluation esthétique, et le sous-titrage dense basé sur notre modèle vidéo-LLM interne. L'entraînement des modèles VidVAE et DiT a nécessité environ 40 et 642 jours H100, respectivement. Notre modèle prend en charge la génération de vidéos 720p de plus de 14 secondes de manière intégrale et démontre des performances compétitives par rapport aux modèles T2V de pointe.

English

We present xGen-VideoSyn-1, a text-to-video (T2V) generation model capable of producing realistic scenes from textual descriptions. Building on recent advancements, such as OpenAI's Sora, we explore the latent diffusion model (LDM) architecture and introduce a video variational autoencoder (VidVAE). VidVAE compresses video data both spatially and temporally, significantly reducing the length of visual tokens and the computational demands associated with generating long-sequence videos. To further address the computational costs, we propose a divide-and-merge strategy that maintains temporal consistency across video segments. Our Diffusion Transformer (DiT) model incorporates spatial and temporal self-attention layers, enabling robust generalization across different timeframes and aspect ratios. We have devised a data processing pipeline from the very beginning and collected over 13M high-quality video-text pairs. The pipeline includes multiple steps such as clipping, text detection, motion estimation, aesthetics scoring, and dense captioning based on our in-house video-LLM model. Training the VidVAE and DiT models required approximately 40 and 642 H100 days, respectively. Our model supports over 14-second 720p video generation in an end-to-end way and demonstrates competitive performance against state-of-the-art T2V models.

xGen-VideoSyn-1 : Synthèse de haute fidélité de texte en vidéo avec des représentations compressées

xGen-VideoSyn-1: High-fidelity Text-to-Video Synthesis with Compressed Representations

papers.abstract

Support