Технический отчет Step-Video-T2V: Практика, проблемы и будущее базовой модели для работы с видео

Аннотация

Мы представляем Step-Video-T2V — современную предобученную модель для генерации видео из текста, содержащую 30 миллиардов параметров и способную создавать видео длиной до 204 кадров. Для задач генерации видео разработан глубоко сжимающий Вариационный Автокодировщик (Video-VAE), который достигает коэффициентов сжатия 16x16 в пространственном и 8x во временном измерениях, сохраняя при этом высокое качество реконструкции видео. Пользовательские запросы кодируются с использованием двух двуязычных текстовых энкодеров для обработки как английского, так и китайского языков. Модель DiT с 3D полным вниманием обучается с помощью метода Flow Matching и используется для преобразования входного шума в скрытые кадры. Для уменьшения артефактов и улучшения визуального качества генерируемых видео применяется видеоспецифичный подход DPO (Video-DPO). Мы также подробно описываем наши стратегии обучения и делимся ключевыми наблюдениями и инсайтами. Производительность Step-Video-T2V оценивается на новом бенчмарке для генерации видео, Step-Video-T2V-Eval, демонстрируя её передовое качество в сравнении как с открытыми, так и с коммерческими движками. Кроме того, мы обсуждаем ограничения текущей парадигмы моделей на основе диффузии и намечаем будущие направления для фундаментальных моделей видео. Мы делаем Step-Video-T2V и Step-Video-T2V-Eval доступными по адресу https://github.com/stepfun-ai/Step-Video-T2V. Онлайн-версия также доступна на https://yuewen.cn/videos. Наша цель — ускорить инновации в области фундаментальных моделей видео и расширить возможности создателей видеоконтента.

English

We present Step-Video-T2V, a state-of-the-art text-to-video pre-trained model with 30B parameters and the ability to generate videos up to 204 frames in length. A deep compression Variational Autoencoder, Video-VAE, is designed for video generation tasks, achieving 16x16 spatial and 8x temporal compression ratios, while maintaining exceptional video reconstruction quality. User prompts are encoded using two bilingual text encoders to handle both English and Chinese. A DiT with 3D full attention is trained using Flow Matching and is employed to denoise input noise into latent frames. A video-based DPO approach, Video-DPO, is applied to reduce artifacts and improve the visual quality of the generated videos. We also detail our training strategies and share key observations and insights. Step-Video-T2V's performance is evaluated on a novel video generation benchmark, Step-Video-T2V-Eval, demonstrating its state-of-the-art text-to-video quality when compared with both open-source and commercial engines. Additionally, we discuss the limitations of current diffusion-based model paradigm and outline future directions for video foundation models. We make both Step-Video-T2V and Step-Video-T2V-Eval available at https://github.com/stepfun-ai/Step-Video-T2V. The online version can be accessed from https://yuewen.cn/videos as well. Our goal is to accelerate the innovation of video foundation models and empower video content creators.