FSVideo: Modello di Diffusione Video ad Alta Velocità in uno Spazio Latente Altamente Compresso
FSVideo: Fast Speed Video Diffusion Model in a Highly-Compressed Latent Space
February 2, 2026
Autori: FSVideo Team, Qingyu Chen, Zhiyuan Fang, Haibin Huang, Xinwei Huang, Tong Jin, Minxuan Lin, Bo Liu, Celong Liu, Chongyang Ma, Xing Mei, Xiaohui Shen, Yaojie Shen, Fuwen Tan, Angtian Wang, Xiao Yang, Yiding Yang, Jiamin Yuan, Lingxi Zhang, Yuxin Zhang
cs.AI
Abstract
Presentiamo FSVideo, un framework di diffusione image-to-video (I2V) basato su transformer ad alta velocità. La nostra architettura si fonda sui seguenti componenti chiave: 1) un nuovo autoencoder video con spazio latente altamente compresso (rapporto di downsampling spazio-temporale 64x64x4), che raggiunge una qualità di ricostruzione competitiva; 2) un'architettura Diffusion Transformer (DIT) con un nuovo design a memoria degli strati per potenziare il flusso informativo inter-strato e il riutilizzo del contesto all'interno del DIT; e 3) una strategia di generazione multi-risoluzione tramite un upsampler DIT a pochi passi per aumentare la fedeltà del video. Il nostro modello finale, che comprende un modello base DIT da 14B e un upsampler DIT da 14B, raggiunge prestazioni competitive rispetto ad altri modelli open-source diffusi, risultando al contempo di un ordine di grandezza più veloce. In questo rapporto discutiamo la progettazione del nostro modello e le relative strategie di addestramento.
English
We introduce FSVideo, a fast speed transformer-based image-to-video (I2V) diffusion framework. We build our framework on the following key components: 1.) a new video autoencoder with highly-compressed latent space (64times64times4 spatial-temporal downsampling ratio), achieving competitive reconstruction quality; 2.) a diffusion transformer (DIT) architecture with a new layer memory design to enhance inter-layer information flow and context reuse within DIT, and 3.) a multi-resolution generation strategy via a few-step DIT upsampler to increase video fidelity. Our final model, which contains a 14B DIT base model and a 14B DIT upsampler, achieves competitive performance against other popular open-source models, while being an order of magnitude faster. We discuss our model design as well as training strategies in this report.