ChatPaper.aiChatPaper

SF-V: Модель генерации видео в одном направлении

SF-V: Single Forward Video Generation Model

June 6, 2024
Авторы: Zhixing Zhang, Yanyu Li, Yushu Wu, Yanwu Xu, Anil Kag, Ivan Skorokhodov, Willi Menapace, Aliaksandr Siarohin, Junli Cao, Dimitris Metaxas, Sergey Tulyakov, Jian Ren
cs.AI

Аннотация

Модели генерации видео на основе диффузии продемонстрировали выдающийся успех в получении видеороликов высокой точности через итеративный процесс уменьшения шума. Однако такие модели требуют нескольких этапов уменьшения шума во время выборки, что приводит к высоким вычислительным затратам. В данной работе мы предлагаем новый подход для создания моделей генерации видео за один шаг, используя адверсарное обучение для настройки заранее обученных моделей диффузии видео. Мы показываем, что благодаря адверсарному обучению многошаговая модель диффузии видео, т.е. Устойчивая Диффузия Видео (SVD), может быть обучена выполнять один проход для синтеза видеороликов высокого качества, улавливая как временные, так и пространственные зависимости в видеоданных. Обширные эксперименты показывают, что наш метод достигает конкурентоспособного качества генерации синтезированных видеороликов с значительным снижением вычислительной нагрузки для процесса уменьшения шума (т.е. примерно в 23 раза быстрее по сравнению с SVD и в 6 раз быстрее по сравнению с существующими работами, с еще более высоким качеством генерации), открывая путь к синтезу и редактированию видео в реальном времени. Дополнительные результаты визуализации доступны по ссылке https://snap-research.github.io/SF-V.
English
Diffusion-based video generation models have demonstrated remarkable success in obtaining high-fidelity videos through the iterative denoising process. However, these models require multiple denoising steps during sampling, resulting in high computational costs. In this work, we propose a novel approach to obtain single-step video generation models by leveraging adversarial training to fine-tune pre-trained video diffusion models. We show that, through the adversarial training, the multi-steps video diffusion model, i.e., Stable Video Diffusion (SVD), can be trained to perform single forward pass to synthesize high-quality videos, capturing both temporal and spatial dependencies in the video data. Extensive experiments demonstrate that our method achieves competitive generation quality of synthesized videos with significantly reduced computational overhead for the denoising process (i.e., around 23times speedup compared with SVD and 6times speedup compared with existing works, with even better generation quality), paving the way for real-time video synthesis and editing. More visualization results are made publicly available at https://snap-research.github.io/SF-V.
PDF262December 8, 2024