ExVideo: Расширение моделей диффузии видео с помощью эффективной настройки параметров.
ExVideo: Extending Video Diffusion Models via Parameter-Efficient Post-Tuning
June 20, 2024
Авторы: Zhongjie Duan, Wenmeng Zhou, Cen Chen, Yaliang Li, Weining Qian
cs.AI
Аннотация
В последнее время прогресс в области синтеза видео привлек значительное внимание. Модели синтеза видео, такие как AnimateDiff и Stable Video Diffusion, продемонстрировали практическую применимость моделей диффузии в создании динамического визуального контента. Появление SORA дополнительно подчеркнуло потенциал технологий генерации видео. Тем не менее, увеличение длины видео ограничено ограничениями вычислительных ресурсов. Большинство существующих моделей синтеза видео могут генерировать только короткие видеоролики. В данной статье мы предлагаем новую методологию постнастройки для моделей синтеза видео, названную ExVideo. Этот подход разработан для улучшения возможностей текущих моделей синтеза видео, позволяя им создавать контент на продолжительные временные промежутки при более низких затратах на обучение. В частности, мы разрабатываем стратегии расширения для общих архитектур временных моделей, включая 3D свертку, временное внимание и позиционное вложение. Для оценки эффективности нашего предложенного подхода по постнастройке мы проводим обучение расширения на модели Stable Video Diffusion. Наш подход увеличивает возможности модели генерировать до 5 раз больше кадров, требуя всего 1,5 тыс. часов GPU для обучения на наборе данных, включающем 40 тыс. видео. Важно отметить, что значительное увеличение длины видео не ущемляет врожденные обобщающие способности модели, и модель продемонстрировала свои преимущества в создании видео различных стилей и разрешений. Мы планируем публично опубликовать исходный код и улучшенную модель.
English
Recently, advancements in video synthesis have attracted significant
attention. Video synthesis models such as AnimateDiff and Stable Video
Diffusion have demonstrated the practical applicability of diffusion models in
creating dynamic visual content. The emergence of SORA has further spotlighted
the potential of video generation technologies. Nonetheless, the extension of
video lengths has been constrained by the limitations in computational
resources. Most existing video synthesis models can only generate short video
clips. In this paper, we propose a novel post-tuning methodology for video
synthesis models, called ExVideo. This approach is designed to enhance the
capability of current video synthesis models, allowing them to produce content
over extended temporal durations while incurring lower training expenditures.
In particular, we design extension strategies across common temporal model
architectures respectively, including 3D convolution, temporal attention, and
positional embedding. To evaluate the efficacy of our proposed post-tuning
approach, we conduct extension training on the Stable Video Diffusion model.
Our approach augments the model's capacity to generate up to 5times its
original number of frames, requiring only 1.5k GPU hours of training on a
dataset comprising 40k videos. Importantly, the substantial increase in video
length doesn't compromise the model's innate generalization capabilities, and
the model showcases its advantages in generating videos of diverse styles and
resolutions. We will release the source code and the enhanced model publicly.