FSVideo: Modello di Diffusione Video ad Alta Velocità in uno Spazio Latente Altamente Compresso

Abstract

Presentiamo FSVideo, un framework di diffusione image-to-video (I2V) basato su transformer ad alta velocità. La nostra architettura si fonda sui seguenti componenti chiave: 1) un nuovo autoencoder video con spazio latente altamente compresso (rapporto di downsampling spazio-temporale 64x64x4), che raggiunge una qualità di ricostruzione competitiva; 2) un'architettura Diffusion Transformer (DIT) con un nuovo design a memoria degli strati per potenziare il flusso informativo inter-strato e il riutilizzo del contesto all'interno del DIT; e 3) una strategia di generazione multi-risoluzione tramite un upsampler DIT a pochi passi per aumentare la fedeltà del video. Il nostro modello finale, che comprende un modello base DIT da 14B e un upsampler DIT da 14B, raggiunge prestazioni competitive rispetto ad altri modelli open-source diffusi, risultando al contempo di un ordine di grandezza più veloce. In questo rapporto discutiamo la progettazione del nostro modello e le relative strategie di addestramento.

English

We introduce FSVideo, a fast speed transformer-based image-to-video (I2V) diffusion framework. We build our framework on the following key components: 1.) a new video autoencoder with highly-compressed latent space (64times64times4 spatial-temporal downsampling ratio), achieving competitive reconstruction quality; 2.) a diffusion transformer (DIT) architecture with a new layer memory design to enhance inter-layer information flow and context reuse within DIT, and 3.) a multi-resolution generation strategy via a few-step DIT upsampler to increase video fidelity. Our final model, which contains a 14B DIT base model and a 14B DIT upsampler, achieves competitive performance against other popular open-source models, while being an order of magnitude faster. We discuss our model design as well as training strategies in this report.

FSVideo: Modello di Diffusione Video ad Alta Velocità in uno Spazio Latente Altamente Compresso

FSVideo: Fast Speed Video Diffusion Model in a Highly-Compressed Latent Space

Abstract

Support