FSVideo: Modelo de Difusão de Vídeo de Alta Velocidade em um Espaço Latente Altamente Comprimido
FSVideo: Fast Speed Video Diffusion Model in a Highly-Compressed Latent Space
February 2, 2026
Autores: FSVideo Team, Qingyu Chen, Zhiyuan Fang, Haibin Huang, Xinwei Huang, Tong Jin, Minxuan Lin, Bo Liu, Celong Liu, Chongyang Ma, Xing Mei, Xiaohui Shen, Yaojie Shen, Fuwen Tan, Angtian Wang, Xiao Yang, Yiding Yang, Jiamin Yuan, Lingxi Zhang, Yuxin Zhang
cs.AI
Resumo
Apresentamos o FSVideo, um framework de difusão imagem-para-vídeo (I2V) baseado em transformers de alta velocidade. Construímos nosso framework sobre os seguintes componentes-chave: 1.) um novo autoencoder de vídeo com espaço latente altamente comprimido (razão de subamostragem espaço-temporal de 64x64x4), alcançando qualidade de reconstrução competitiva; 2.) uma arquitetura de transformer de difusão (DIT) com um novo design de memória em camadas para melhorar o fluxo de informação entre camadas e a reutilização de contexto dentro do DIT, e 3.) uma estratégia de geração multi-resolução via um upsampler DIT de poucos passos para aumentar a fidelidade do vídeo. Nosso modelo final, que contém um modelo base DIT de 14B e um upsampler DIT de 14B, alcança desempenho competitivo em comparação com outros modelos de código aberto populares, sendo uma ordem de magnitude mais rápido. Discutimos o design do nosso modelo, bem como as estratégias de treinamento, neste relatório.
English
We introduce FSVideo, a fast speed transformer-based image-to-video (I2V) diffusion framework. We build our framework on the following key components: 1.) a new video autoencoder with highly-compressed latent space (64times64times4 spatial-temporal downsampling ratio), achieving competitive reconstruction quality; 2.) a diffusion transformer (DIT) architecture with a new layer memory design to enhance inter-layer information flow and context reuse within DIT, and 3.) a multi-resolution generation strategy via a few-step DIT upsampler to increase video fidelity. Our final model, which contains a 14B DIT base model and a 14B DIT upsampler, achieves competitive performance against other popular open-source models, while being an order of magnitude faster. We discuss our model design as well as training strategies in this report.