FSVideo: Modelo de Difusão de Vídeo de Alta Velocidade em um Espaço Latente Altamente Comprimido

Resumo

Apresentamos o FSVideo, um framework de difusão imagem-para-vídeo (I2V) baseado em transformers de alta velocidade. Construímos nosso framework sobre os seguintes componentes-chave: 1.) um novo autoencoder de vídeo com espaço latente altamente comprimido (razão de subamostragem espaço-temporal de 64x64x4), alcançando qualidade de reconstrução competitiva; 2.) uma arquitetura de transformer de difusão (DIT) com um novo design de memória em camadas para melhorar o fluxo de informação entre camadas e a reutilização de contexto dentro do DIT, e 3.) uma estratégia de geração multi-resolução via um upsampler DIT de poucos passos para aumentar a fidelidade do vídeo. Nosso modelo final, que contém um modelo base DIT de 14B e um upsampler DIT de 14B, alcança desempenho competitivo em comparação com outros modelos de código aberto populares, sendo uma ordem de magnitude mais rápido. Discutimos o design do nosso modelo, bem como as estratégias de treinamento, neste relatório.

English

We introduce FSVideo, a fast speed transformer-based image-to-video (I2V) diffusion framework. We build our framework on the following key components: 1.) a new video autoencoder with highly-compressed latent space (64times64times4 spatial-temporal downsampling ratio), achieving competitive reconstruction quality; 2.) a diffusion transformer (DIT) architecture with a new layer memory design to enhance inter-layer information flow and context reuse within DIT, and 3.) a multi-resolution generation strategy via a few-step DIT upsampler to increase video fidelity. Our final model, which contains a 14B DIT base model and a 14B DIT upsampler, achieves competitive performance against other popular open-source models, while being an order of magnitude faster. We discuss our model design as well as training strategies in this report.