FSVideo: Schnelles Videodiffusionsmodell in einem hochkomprimierten latenten Raum

Zusammenfassung

Wir stellen FSVideo vor, ein auf dem Transformer basierendes Bild-zu-Video (I2V) Diffusionsframework für hohe Geschwindigkeiten. Unser Framework basiert auf den folgenden Schlüsselkomponenten: 1.) einem neuen Video-Autoencoder mit hochkomprimiertem latentem Raum (räumlich-zeitliches Downsampling-Verhältnis von 64x64x4), der eine wettbewerbsfähige Rekonstruktionsqualität erreicht; 2.) einer Diffusion-Transformer (DIT)-Architektur mit einem neuen Layer-Memory-Design, um den Informationsfluss zwischen den Schichten und die Wiederverwendung von Kontext innerhalb des DIT zu verbessern, und 3.) einer Multi-Resolution-Generierungsstrategie mittels eines DIT-Upsamplers mit wenigen Schritten, um die Videotreue zu erhöhen. Unser finales Modell, das ein 14B DIT-Basismodell und einen 14B DIT-Upsampler umfasst, erzielt eine wettbewerbsfähige Performance im Vergleich zu anderen populären Open-Source-Modellen, ist dabei jedoch um eine Größenordnung schneller. In diesem Bericht erörtern wir unser Modell-Design sowie die Trainingsstrategien.

English

We introduce FSVideo, a fast speed transformer-based image-to-video (I2V) diffusion framework. We build our framework on the following key components: 1.) a new video autoencoder with highly-compressed latent space (64times64times4 spatial-temporal downsampling ratio), achieving competitive reconstruction quality; 2.) a diffusion transformer (DIT) architecture with a new layer memory design to enhance inter-layer information flow and context reuse within DIT, and 3.) a multi-resolution generation strategy via a few-step DIT upsampler to increase video fidelity. Our final model, which contains a 14B DIT base model and a 14B DIT upsampler, achieves competitive performance against other popular open-source models, while being an order of magnitude faster. We discuss our model design as well as training strategies in this report.

FSVideo: Schnelles Videodiffusionsmodell in einem hochkomprimierten latenten Raum

FSVideo: Fast Speed Video Diffusion Model in a Highly-Compressed Latent Space

Zusammenfassung

Support