Rapport Technique Step-Video-T2V : Pratiques, Défis et Avenir des Modèles Fondamentaux pour la Vidéo

papers.abstract

Nous présentons Step-Video-T2V, un modèle pré-entraîné de pointe pour la génération de vidéos à partir de texte, doté de 30 milliards de paramètres et capable de produire des vidéos allant jusqu'à 204 images. Un Variational Autoencoder (VAE) à compression profonde, Video-VAE, a été conçu pour les tâches de génération vidéo, atteignant des taux de compression spatiale de 16x16 et temporelle de 8x, tout en conservant une qualité de reconstruction vidéo exceptionnelle. Les instructions utilisateur sont encodées à l'aide de deux encodeurs de texte bilingues pour gérer à la fois l'anglais et le chinois. Un DiT (Diffusion Transformer) avec attention 3D complète est entraîné via Flow Matching et est utilisé pour débruiter le bruit d'entrée en images latentes. Une approche basée sur la vidéo, Video-DPO, est appliquée pour réduire les artefacts et améliorer la qualité visuelle des vidéos générées. Nous détaillons également nos stratégies d'entraînement et partageons des observations et insights clés. La performance de Step-Video-T2V est évaluée sur un nouveau benchmark de génération vidéo, Step-Video-T2V-Eval, démontrant sa qualité de pointe en génération vidéo à partir de texte par rapport à des moteurs open-source et commerciaux. Par ailleurs, nous discutons des limites du paradigme actuel des modèles basés sur la diffusion et esquissons des directions futures pour les modèles fondateurs vidéo. Nous rendons Step-Video-T2V et Step-Video-T2V-Eval disponibles à l'adresse https://github.com/stepfun-ai/Step-Video-T2V. La version en ligne est également accessible via https://yuewen.cn/videos. Notre objectif est d'accélérer l'innovation des modèles fondateurs vidéo et d'habiliter les créateurs de contenu vidéo.

English

We present Step-Video-T2V, a state-of-the-art text-to-video pre-trained model with 30B parameters and the ability to generate videos up to 204 frames in length. A deep compression Variational Autoencoder, Video-VAE, is designed for video generation tasks, achieving 16x16 spatial and 8x temporal compression ratios, while maintaining exceptional video reconstruction quality. User prompts are encoded using two bilingual text encoders to handle both English and Chinese. A DiT with 3D full attention is trained using Flow Matching and is employed to denoise input noise into latent frames. A video-based DPO approach, Video-DPO, is applied to reduce artifacts and improve the visual quality of the generated videos. We also detail our training strategies and share key observations and insights. Step-Video-T2V's performance is evaluated on a novel video generation benchmark, Step-Video-T2V-Eval, demonstrating its state-of-the-art text-to-video quality when compared with both open-source and commercial engines. Additionally, we discuss the limitations of current diffusion-based model paradigm and outline future directions for video foundation models. We make both Step-Video-T2V and Step-Video-T2V-Eval available at https://github.com/stepfun-ai/Step-Video-T2V. The online version can be accessed from https://yuewen.cn/videos as well. Our goal is to accelerate the innovation of video foundation models and empower video content creators.

Rapport Technique Step-Video-T2V : Pratiques, Défis et Avenir des Modèles Fondamentaux pour la Vidéo

Step-Video-T2V Technical Report: The Practice, Challenges, and Future of Video Foundation Model

papers.abstract

Support