FSVideo: Modelo de Difusión de Video de Alta Velocidad en un Espacio Latente Altamente Comprimido

Resumen

Presentamos FSVideo, un marco de difusión basado en transformadores de alta velocidad para la conversión de imagen a vídeo (I2V). Construimos nuestro marco sobre los siguientes componentes clave: 1) un nuevo autoencoder de vídeo con un espacio latente altamente comprimido (relación de submuestreo espacio-temporal de 64x64x4), que logra una calidad de reconstrucción competitiva; 2) una arquitectura de transformador de difusión (DIT) con un nuevo diseño de memoria por capas para mejorar el flujo de información entre capas y la reutilización de contexto dentro del DIT, y 3) una estrategia de generación multirresolución mediante un modelo DIT de supermuestreo de pocos pasos para aumentar la fidelidad del vídeo. Nuestro modelo final, que contiene un modelo base DIT de 14B y un modelo DIT de supermuestreo de 14B, logra un rendimiento competitivo frente a otros modelos de código abierto populares, siendo a la vez un orden de magnitud más rápido. En este informe discutimos el diseño de nuestro modelo así como las estrategias de entrenamiento.

English

We introduce FSVideo, a fast speed transformer-based image-to-video (I2V) diffusion framework. We build our framework on the following key components: 1.) a new video autoencoder with highly-compressed latent space (64times64times4 spatial-temporal downsampling ratio), achieving competitive reconstruction quality; 2.) a diffusion transformer (DIT) architecture with a new layer memory design to enhance inter-layer information flow and context reuse within DIT, and 3.) a multi-resolution generation strategy via a few-step DIT upsampler to increase video fidelity. Our final model, which contains a 14B DIT base model and a 14B DIT upsampler, achieves competitive performance against other popular open-source models, while being an order of magnitude faster. We discuss our model design as well as training strategies in this report.