FSVideo: Snel Video-Diffusiemodel in een Hoog-Gecomprimeerde Latente Ruimte

Samenvatting

Wij introduceren FSVideo, een snel, op transformers gebaseerd image-to-video (I2V) diffusiekader. Ons framework rust op de volgende kerncomponenten: 1.) een nieuwe video-auto-encoder met een sterk gecomprimeerde latente ruimte (64x64x4 ruimtelijk-temporele downsampling ratio), die een competitieve reconstructiekwaliteit bereikt; 2.) een diffusie-transformer (DIT) architectuur met een nieuwe layer memory-ontwerp om de informatie-uitwisseling tussen lagen en contexthergebruik binnen de DIT te verbeteren, en 3.) een multi-resolutie generatiestrategie via een DIT-upsampler met weinig stappen om de videokwaliteit te verhogen. Ons uiteindelijke model, dat bestaat uit een 14B DIT-basismodel en een 14B DIT-upsampler, behaalt competitieve prestaties in vergelijking met andere populaire open-source modellen, terwijl het een orde van grootte sneller is. In dit verslag bespreken we ons modelontwerp evenals de trainingsstrategieën.

English

We introduce FSVideo, a fast speed transformer-based image-to-video (I2V) diffusion framework. We build our framework on the following key components: 1.) a new video autoencoder with highly-compressed latent space (64times64times4 spatial-temporal downsampling ratio), achieving competitive reconstruction quality; 2.) a diffusion transformer (DIT) architecture with a new layer memory design to enhance inter-layer information flow and context reuse within DIT, and 3.) a multi-resolution generation strategy via a few-step DIT upsampler to increase video fidelity. Our final model, which contains a 14B DIT base model and a 14B DIT upsampler, achieves competitive performance against other popular open-source models, while being an order of magnitude faster. We discuss our model design as well as training strategies in this report.

FSVideo: Snel Video-Diffusiemodel in een Hoog-Gecomprimeerde Latente Ruimte

FSVideo: Fast Speed Video Diffusion Model in a Highly-Compressed Latent Space

Samenvatting

Support