Step-Video-T2V Relazione Tecnica: La Pratica, le Sfide e il Futuro dei Modelli Fondamentali per il Video

Abstract

Presentiamo Step-Video-T2V, un modello pre-addestrato text-to-video all'avanguardia con 30 miliardi di parametri e la capacità di generare video fino a 204 fotogrammi di lunghezza. Un Variational Autoencoder a compressione profonda, Video-VAE, è stato progettato per le attività di generazione video, raggiungendo rapporti di compressione spaziale di 16x16 e temporale di 8x, mantenendo una qualità di ricostruzione video eccezionale. I prompt degli utenti vengono codificati utilizzando due encoder di testo bilingue per gestire sia l'inglese che il cinese. Un DiT con attenzione 3D completa viene addestrato utilizzando Flow Matching e impiegato per denoisare il rumore di input in frame latenti. Un approccio DPO basato su video, Video-DPO, viene applicato per ridurre gli artefatti e migliorare la qualità visiva dei video generati. Descriviamo inoltre le nostre strategie di addestramento e condividiamo osservazioni e intuizioni chiave. Le prestazioni di Step-Video-T2V vengono valutate su un nuovo benchmark di generazione video, Step-Video-T2V-Eval, dimostrando la sua qualità text-to-video all'avanguardia rispetto a motori sia open-source che commerciali. Inoltre, discutiamo i limiti dell'attuale paradigma basato su modelli di diffusione e delineiamo le direzioni future per i modelli di fondazione video. Rendiamo disponibili sia Step-Video-T2V che Step-Video-T2V-Eval su https://github.com/stepfun-ai/Step-Video-T2V. La versione online può essere accessibile anche da https://yuewen.cn/videos. Il nostro obiettivo è accelerare l'innovazione dei modelli di fondazione video e potenziare i creatori di contenuti video.

English

We present Step-Video-T2V, a state-of-the-art text-to-video pre-trained model with 30B parameters and the ability to generate videos up to 204 frames in length. A deep compression Variational Autoencoder, Video-VAE, is designed for video generation tasks, achieving 16x16 spatial and 8x temporal compression ratios, while maintaining exceptional video reconstruction quality. User prompts are encoded using two bilingual text encoders to handle both English and Chinese. A DiT with 3D full attention is trained using Flow Matching and is employed to denoise input noise into latent frames. A video-based DPO approach, Video-DPO, is applied to reduce artifacts and improve the visual quality of the generated videos. We also detail our training strategies and share key observations and insights. Step-Video-T2V's performance is evaluated on a novel video generation benchmark, Step-Video-T2V-Eval, demonstrating its state-of-the-art text-to-video quality when compared with both open-source and commercial engines. Additionally, we discuss the limitations of current diffusion-based model paradigm and outline future directions for video foundation models. We make both Step-Video-T2V and Step-Video-T2V-Eval available at https://github.com/stepfun-ai/Step-Video-T2V. The online version can be accessed from https://yuewen.cn/videos as well. Our goal is to accelerate the innovation of video foundation models and empower video content creators.

Step-Video-T2V Relazione Tecnica: La Pratica, le Sfide e il Futuro dei Modelli Fondamentali per il Video

Step-Video-T2V Technical Report: The Practice, Challenges, and Future of Video Foundation Model

Abstract

Support