FSVideo: Быстрая модель диффузии видео в высокосжатом латентном пространстве

Аннотация

Мы представляем FSVideo — быстрый трансформерный фреймворк для диффузионного преобразования изображений в видео (I2V), основанный на следующих ключевых компонентах: 1) новый видеоавтокодировщик с высокостепенной компрессией латентного пространства (коэффициент пространственно-временного сжатия 64×64×4), обеспечивающий конкурентоспособное качество реконструкции; 2) архитектура диффузионного трансформера (DIT) с новой схемой организации памяти слоёв для улучшения межслойного потока информации и повторного использования контекста внутри DIT; 3) стратегия генерации в многомасштабном разрешении с помощью малошагового апсемплера на основе DIT для повышения детализации видео. Наша итоговая модель, включающая базовую 14B-параметрическую DIT-модель и 14B-параметрический DIT-апсемплер, демонстрирует конкурентоспособные результаты по сравнению с другими популярными открытыми моделями, при этом работая на порядок быстрее. В данном отчёте мы обсуждаем архитектурные решения и стратегии обучения нашей модели.

English

We introduce FSVideo, a fast speed transformer-based image-to-video (I2V) diffusion framework. We build our framework on the following key components: 1.) a new video autoencoder with highly-compressed latent space (64times64times4 spatial-temporal downsampling ratio), achieving competitive reconstruction quality; 2.) a diffusion transformer (DIT) architecture with a new layer memory design to enhance inter-layer information flow and context reuse within DIT, and 3.) a multi-resolution generation strategy via a few-step DIT upsampler to increase video fidelity. Our final model, which contains a 14B DIT base model and a 14B DIT upsampler, achieves competitive performance against other popular open-source models, while being an order of magnitude faster. We discuss our model design as well as training strategies in this report.

FSVideo: Быстрая модель диффузии видео в высокосжатом латентном пространстве

FSVideo: Fast Speed Video Diffusion Model in a Highly-Compressed Latent Space

Аннотация

Support