xGen-VideoSyn-1: Синтез видео из текста высокой точности с сжатыми представлениями

Аннотация

Мы представляем xGen-VideoSyn-1, модель генерации видео из текста (T2V), способную создавать реалистичные сцены по текстовым описаниям. Основываясь на недавних достижениях, таких как Sora от OpenAI, мы исследуем архитектуру модели латентной диффузии (LDM) и представляем видео вариационный автокодировщик (VidVAE). VidVAE сжимает видеоданные как пространственно, так и временно, значительно уменьшая длину визуальных токенов и вычислительные затраты, связанные с генерацией видеороликов длинной последовательности. Для дальнейшего снижения вычислительных затрат мы предлагаем стратегию разделения и объединения, которая поддерживает временную последовательность в видеосегментах. Наша модель Диффузионного Трансформера (DiT) включает слои пространственного и временного самовнимания, обеспечивая надежную обобщенность по разным временным интервалам и соотношениям сторон. Мы разработали конвейер обработки данных с самого начала и собрали более 13 млн пар видео-текст высокого качества. Конвейер включает несколько этапов, таких как обрезка, обнаружение текста, оценка движения, оценка эстетики и плотное описывание на основе нашей модели видео-LLM. Обучение моделей VidVAE и DiT потребовало примерно 40 и 642 дней H100 соответственно. Наша модель поддерживает генерацию видео 720p продолжительностью более 14 секунд в едином процессе и демонстрирует конкурентоспособную производительность по сравнению с передовыми моделями T2V.

English

We present xGen-VideoSyn-1, a text-to-video (T2V) generation model capable of producing realistic scenes from textual descriptions. Building on recent advancements, such as OpenAI's Sora, we explore the latent diffusion model (LDM) architecture and introduce a video variational autoencoder (VidVAE). VidVAE compresses video data both spatially and temporally, significantly reducing the length of visual tokens and the computational demands associated with generating long-sequence videos. To further address the computational costs, we propose a divide-and-merge strategy that maintains temporal consistency across video segments. Our Diffusion Transformer (DiT) model incorporates spatial and temporal self-attention layers, enabling robust generalization across different timeframes and aspect ratios. We have devised a data processing pipeline from the very beginning and collected over 13M high-quality video-text pairs. The pipeline includes multiple steps such as clipping, text detection, motion estimation, aesthetics scoring, and dense captioning based on our in-house video-LLM model. Training the VidVAE and DiT models required approximately 40 and 642 H100 days, respectively. Our model supports over 14-second 720p video generation in an end-to-end way and demonstrates competitive performance against state-of-the-art T2V models.

xGen-VideoSyn-1: Синтез видео из текста высокой точности с сжатыми представлениями

xGen-VideoSyn-1: High-fidelity Text-to-Video Synthesis with Compressed Representations

Аннотация

Support