ChatPaper.aiChatPaper

FSVideo: Быстрая модель диффузии видео в высокосжатом латентном пространстве

FSVideo: Fast Speed Video Diffusion Model in a Highly-Compressed Latent Space

February 2, 2026
Авторы: FSVideo Team, Qingyu Chen, Zhiyuan Fang, Haibin Huang, Xinwei Huang, Tong Jin, Minxuan Lin, Bo Liu, Celong Liu, Chongyang Ma, Xing Mei, Xiaohui Shen, Yaojie Shen, Fuwen Tan, Angtian Wang, Xiao Yang, Yiding Yang, Jiamin Yuan, Lingxi Zhang, Yuxin Zhang
cs.AI

Аннотация

Мы представляем FSVideo — быстрый трансформерный фреймворк для диффузионного преобразования изображений в видео (I2V), основанный на следующих ключевых компонентах: 1) новый видеоавтокодировщик с высокостепенной компрессией латентного пространства (коэффициент пространственно-временного сжатия 64×64×4), обеспечивающий конкурентоспособное качество реконструкции; 2) архитектура диффузионного трансформера (DIT) с новой схемой организации памяти слоёв для улучшения межслойного потока информации и повторного использования контекста внутри DIT; 3) стратегия генерации в многомасштабном разрешении с помощью малошагового апсемплера на основе DIT для повышения детализации видео. Наша итоговая модель, включающая базовую 14B-параметрическую DIT-модель и 14B-параметрический DIT-апсемплер, демонстрирует конкурентоспособные результаты по сравнению с другими популярными открытыми моделями, при этом работая на порядок быстрее. В данном отчёте мы обсуждаем архитектурные решения и стратегии обучения нашей модели.
English
We introduce FSVideo, a fast speed transformer-based image-to-video (I2V) diffusion framework. We build our framework on the following key components: 1.) a new video autoencoder with highly-compressed latent space (64times64times4 spatial-temporal downsampling ratio), achieving competitive reconstruction quality; 2.) a diffusion transformer (DIT) architecture with a new layer memory design to enhance inter-layer information flow and context reuse within DIT, and 3.) a multi-resolution generation strategy via a few-step DIT upsampler to increase video fidelity. Our final model, which contains a 14B DIT base model and a 14B DIT upsampler, achieves competitive performance against other popular open-source models, while being an order of magnitude faster. We discuss our model design as well as training strategies in this report.
PDF181March 12, 2026