Relatório Técnico Step-Video-T2V: A Prática, Desafios e Futuro dos Modelos Fundamentais de Vídeo

Resumo

Apresentamos o Step-Video-T2V, um modelo pré-treinado de texto para vídeo de última geração com 30 bilhões de parâmetros e a capacidade de gerar vídeos com até 204 quadros de duração. Um Variational Autoencoder de compressão profunda, Video-VAE, foi projetado para tarefas de geração de vídeo, alcançando taxas de compressão espacial de 16x16 e temporal de 8x, mantendo uma qualidade excepcional de reconstrução de vídeo. Os prompts dos usuários são codificados usando dois codificadores de texto bilíngues para lidar com inglês e chinês. Um DiT com atenção 3D completa é treinado usando Flow Matching e é empregado para remover o ruído de entrada em quadros latentes. Uma abordagem DPO baseada em vídeo, Video-DPO, é aplicada para reduzir artefatos e melhorar a qualidade visual dos vídeos gerados. Também detalhamos nossas estratégias de treinamento e compartilhamos observações e insights importantes. O desempenho do Step-Video-T2V é avaliado em um novo benchmark de geração de vídeo, Step-Video-T2V-Eval, demonstrando sua qualidade de texto para vídeo de última geração quando comparado com motores de código aberto e comerciais. Além disso, discutimos as limitações do paradigma atual de modelos baseados em difusão e delineamos direções futuras para modelos de fundação de vídeo. Disponibilizamos tanto o Step-Video-T2V quanto o Step-Video-T2V-Eval em https://github.com/stepfun-ai/Step-Video-T2V. A versão online também pode ser acessada em https://yuewen.cn/videos. Nosso objetivo é acelerar a inovação de modelos de fundação de vídeo e capacitar criadores de conteúdo de vídeo.

English

We present Step-Video-T2V, a state-of-the-art text-to-video pre-trained model with 30B parameters and the ability to generate videos up to 204 frames in length. A deep compression Variational Autoencoder, Video-VAE, is designed for video generation tasks, achieving 16x16 spatial and 8x temporal compression ratios, while maintaining exceptional video reconstruction quality. User prompts are encoded using two bilingual text encoders to handle both English and Chinese. A DiT with 3D full attention is trained using Flow Matching and is employed to denoise input noise into latent frames. A video-based DPO approach, Video-DPO, is applied to reduce artifacts and improve the visual quality of the generated videos. We also detail our training strategies and share key observations and insights. Step-Video-T2V's performance is evaluated on a novel video generation benchmark, Step-Video-T2V-Eval, demonstrating its state-of-the-art text-to-video quality when compared with both open-source and commercial engines. Additionally, we discuss the limitations of current diffusion-based model paradigm and outline future directions for video foundation models. We make both Step-Video-T2V and Step-Video-T2V-Eval available at https://github.com/stepfun-ai/Step-Video-T2V. The online version can be accessed from https://yuewen.cn/videos as well. Our goal is to accelerate the innovation of video foundation models and empower video content creators.

Relatório Técnico Step-Video-T2V: A Prática, Desafios e Futuro dos Modelos Fundamentais de Vídeo

Step-Video-T2V Technical Report: The Practice, Challenges, and Future of Video Foundation Model

Resumo

Support