FSVideo: Schnelles Videodiffusionsmodell in einem hochkomprimierten latenten Raum
FSVideo: Fast Speed Video Diffusion Model in a Highly-Compressed Latent Space
February 2, 2026
Autoren: FSVideo Team, Qingyu Chen, Zhiyuan Fang, Haibin Huang, Xinwei Huang, Tong Jin, Minxuan Lin, Bo Liu, Celong Liu, Chongyang Ma, Xing Mei, Xiaohui Shen, Yaojie Shen, Fuwen Tan, Angtian Wang, Xiao Yang, Yiding Yang, Jiamin Yuan, Lingxi Zhang, Yuxin Zhang
cs.AI
Zusammenfassung
Wir stellen FSVideo vor, ein auf dem Transformer basierendes Bild-zu-Video (I2V) Diffusionsframework für hohe Geschwindigkeiten. Unser Framework basiert auf den folgenden Schlüsselkomponenten: 1.) einem neuen Video-Autoencoder mit hochkomprimiertem latentem Raum (räumlich-zeitliches Downsampling-Verhältnis von 64x64x4), der eine wettbewerbsfähige Rekonstruktionsqualität erreicht; 2.) einer Diffusion-Transformer (DIT)-Architektur mit einem neuen Layer-Memory-Design, um den Informationsfluss zwischen den Schichten und die Wiederverwendung von Kontext innerhalb des DIT zu verbessern, und 3.) einer Multi-Resolution-Generierungsstrategie mittels eines DIT-Upsamplers mit wenigen Schritten, um die Videotreue zu erhöhen. Unser finales Modell, das ein 14B DIT-Basismodell und einen 14B DIT-Upsampler umfasst, erzielt eine wettbewerbsfähige Performance im Vergleich zu anderen populären Open-Source-Modellen, ist dabei jedoch um eine Größenordnung schneller. In diesem Bericht erörtern wir unser Modell-Design sowie die Trainingsstrategien.
English
We introduce FSVideo, a fast speed transformer-based image-to-video (I2V) diffusion framework. We build our framework on the following key components: 1.) a new video autoencoder with highly-compressed latent space (64times64times4 spatial-temporal downsampling ratio), achieving competitive reconstruction quality; 2.) a diffusion transformer (DIT) architecture with a new layer memory design to enhance inter-layer information flow and context reuse within DIT, and 3.) a multi-resolution generation strategy via a few-step DIT upsampler to increase video fidelity. Our final model, which contains a 14B DIT base model and a 14B DIT upsampler, achieves competitive performance against other popular open-source models, while being an order of magnitude faster. We discuss our model design as well as training strategies in this report.