ChatPaper.aiChatPaper

xGen-VideoSyn-1: Синтез видео из текста высокой точности с сжатыми представлениями

xGen-VideoSyn-1: High-fidelity Text-to-Video Synthesis with Compressed Representations

August 22, 2024
Авторы: Can Qin, Congying Xia, Krithika Ramakrishnan, Michael Ryoo, Lifu Tu, Yihao Feng, Manli Shu, Honglu Zhou, Anas Awadalla, Jun Wang, Senthil Purushwalkam, Le Xue, Yingbo Zhou, Huan Wang, Silvio Savarese, Juan Carlos Niebles, Zeyuan Chen, Ran Xu, Caiming Xiong
cs.AI

Аннотация

Мы представляем xGen-VideoSyn-1, модель генерации видео из текста (T2V), способную создавать реалистичные сцены по текстовым описаниям. Основываясь на недавних достижениях, таких как Sora от OpenAI, мы исследуем архитектуру модели латентной диффузии (LDM) и представляем видео вариационный автокодировщик (VidVAE). VidVAE сжимает видеоданные как пространственно, так и временно, значительно уменьшая длину визуальных токенов и вычислительные затраты, связанные с генерацией видеороликов длинной последовательности. Для дальнейшего снижения вычислительных затрат мы предлагаем стратегию разделения и объединения, которая поддерживает временную последовательность в видеосегментах. Наша модель Диффузионного Трансформера (DiT) включает слои пространственного и временного самовнимания, обеспечивая надежную обобщенность по разным временным интервалам и соотношениям сторон. Мы разработали конвейер обработки данных с самого начала и собрали более 13 млн пар видео-текст высокого качества. Конвейер включает несколько этапов, таких как обрезка, обнаружение текста, оценка движения, оценка эстетики и плотное описывание на основе нашей модели видео-LLM. Обучение моделей VidVAE и DiT потребовало примерно 40 и 642 дней H100 соответственно. Наша модель поддерживает генерацию видео 720p продолжительностью более 14 секунд в едином процессе и демонстрирует конкурентоспособную производительность по сравнению с передовыми моделями T2V.
English
We present xGen-VideoSyn-1, a text-to-video (T2V) generation model capable of producing realistic scenes from textual descriptions. Building on recent advancements, such as OpenAI's Sora, we explore the latent diffusion model (LDM) architecture and introduce a video variational autoencoder (VidVAE). VidVAE compresses video data both spatially and temporally, significantly reducing the length of visual tokens and the computational demands associated with generating long-sequence videos. To further address the computational costs, we propose a divide-and-merge strategy that maintains temporal consistency across video segments. Our Diffusion Transformer (DiT) model incorporates spatial and temporal self-attention layers, enabling robust generalization across different timeframes and aspect ratios. We have devised a data processing pipeline from the very beginning and collected over 13M high-quality video-text pairs. The pipeline includes multiple steps such as clipping, text detection, motion estimation, aesthetics scoring, and dense captioning based on our in-house video-LLM model. Training the VidVAE and DiT models required approximately 40 and 642 H100 days, respectively. Our model supports over 14-second 720p video generation in an end-to-end way and demonstrates competitive performance against state-of-the-art T2V models.

Summary

AI-Generated Summary

PDF375November 16, 2024