ChatPaper.aiChatPaper

FSVideo : Modèle de diffusion vidéo rapide dans un espace latent hautement compressé

FSVideo: Fast Speed Video Diffusion Model in a Highly-Compressed Latent Space

February 2, 2026
Auteurs: FSVideo Team, Qingyu Chen, Zhiyuan Fang, Haibin Huang, Xinwei Huang, Tong Jin, Minxuan Lin, Bo Liu, Celong Liu, Chongyang Ma, Xing Mei, Xiaohui Shen, Yaojie Shen, Fuwen Tan, Angtian Wang, Xiao Yang, Yiding Yang, Jiamin Yuan, Lingxi Zhang, Yuxin Zhang
cs.AI

Résumé

Nous présentons FSVideo, un cadre de diffusion image-vers-vidéo (I2V) rapide basé sur un transformateur. Notre architecture repose sur les composants clés suivants : 1.) un nouvel autoencodeur vidéo doté d'un espace latent hautement compressé (ratio d'échantillonnage spatio-temporel de 64×64×4), offrant une qualité de reconstruction compétitive ; 2.) une architecture de transformateur de diffusion (DIT) intégrant une nouvelle conception de mémoire intercouche pour améliorer le flux d'information entre les couches et la réutilisation du contexte au sein du DIT ; et 3.) une stratégie de génération multi-résolution via un suréchantillonneur DIT à faible nombre d'étapes pour accroître la fidélité vidéo. Notre modèle final, comprenant un modèle de base DIT de 14B et un suréchantillonneur DIT de 14B, atteint des performances compétitives par rapport aux autres modèles open-source populaires, tout en étant jusqu'à un ordre de grandeur plus rapide. Ce rapport détaille la conception de notre modèle ainsi que nos stratégies d'entraînement.
English
We introduce FSVideo, a fast speed transformer-based image-to-video (I2V) diffusion framework. We build our framework on the following key components: 1.) a new video autoencoder with highly-compressed latent space (64times64times4 spatial-temporal downsampling ratio), achieving competitive reconstruction quality; 2.) a diffusion transformer (DIT) architecture with a new layer memory design to enhance inter-layer information flow and context reuse within DIT, and 3.) a multi-resolution generation strategy via a few-step DIT upsampler to increase video fidelity. Our final model, which contains a 14B DIT base model and a 14B DIT upsampler, achieves competitive performance against other popular open-source models, while being an order of magnitude faster. We discuss our model design as well as training strategies in this report.
PDF181March 12, 2026