FSVideo: Snel Video-Diffusiemodel in een Hoog-Gecomprimeerde Latente Ruimte
FSVideo: Fast Speed Video Diffusion Model in a Highly-Compressed Latent Space
February 2, 2026
Auteurs: FSVideo Team, Qingyu Chen, Zhiyuan Fang, Haibin Huang, Xinwei Huang, Tong Jin, Minxuan Lin, Bo Liu, Celong Liu, Chongyang Ma, Xing Mei, Xiaohui Shen, Yaojie Shen, Fuwen Tan, Angtian Wang, Xiao Yang, Yiding Yang, Jiamin Yuan, Lingxi Zhang, Yuxin Zhang
cs.AI
Samenvatting
Wij introduceren FSVideo, een snel, op transformers gebaseerd image-to-video (I2V) diffusiekader. Ons framework rust op de volgende kerncomponenten: 1.) een nieuwe video-auto-encoder met een sterk gecomprimeerde latente ruimte (64x64x4 ruimtelijk-temporele downsampling ratio), die een competitieve reconstructiekwaliteit bereikt; 2.) een diffusie-transformer (DIT) architectuur met een nieuwe layer memory-ontwerp om de informatie-uitwisseling tussen lagen en contexthergebruik binnen de DIT te verbeteren, en 3.) een multi-resolutie generatiestrategie via een DIT-upsampler met weinig stappen om de videokwaliteit te verhogen. Ons uiteindelijke model, dat bestaat uit een 14B DIT-basismodel en een 14B DIT-upsampler, behaalt competitieve prestaties in vergelijking met andere populaire open-source modellen, terwijl het een orde van grootte sneller is. In dit verslag bespreken we ons modelontwerp evenals de trainingsstrategieën.
English
We introduce FSVideo, a fast speed transformer-based image-to-video (I2V) diffusion framework. We build our framework on the following key components: 1.) a new video autoencoder with highly-compressed latent space (64times64times4 spatial-temporal downsampling ratio), achieving competitive reconstruction quality; 2.) a diffusion transformer (DIT) architecture with a new layer memory design to enhance inter-layer information flow and context reuse within DIT, and 3.) a multi-resolution generation strategy via a few-step DIT upsampler to increase video fidelity. Our final model, which contains a 14B DIT base model and a 14B DIT upsampler, achieves competitive performance against other popular open-source models, while being an order of magnitude faster. We discuss our model design as well as training strategies in this report.