ExVideo: Расширение моделей диффузии видео с помощью эффективной настройки параметров.

Аннотация

В последнее время прогресс в области синтеза видео привлек значительное внимание. Модели синтеза видео, такие как AnimateDiff и Stable Video Diffusion, продемонстрировали практическую применимость моделей диффузии в создании динамического визуального контента. Появление SORA дополнительно подчеркнуло потенциал технологий генерации видео. Тем не менее, увеличение длины видео ограничено ограничениями вычислительных ресурсов. Большинство существующих моделей синтеза видео могут генерировать только короткие видеоролики. В данной статье мы предлагаем новую методологию постнастройки для моделей синтеза видео, названную ExVideo. Этот подход разработан для улучшения возможностей текущих моделей синтеза видео, позволяя им создавать контент на продолжительные временные промежутки при более низких затратах на обучение. В частности, мы разрабатываем стратегии расширения для общих архитектур временных моделей, включая 3D свертку, временное внимание и позиционное вложение. Для оценки эффективности нашего предложенного подхода по постнастройке мы проводим обучение расширения на модели Stable Video Diffusion. Наш подход увеличивает возможности модели генерировать до 5 раз больше кадров, требуя всего 1,5 тыс. часов GPU для обучения на наборе данных, включающем 40 тыс. видео. Важно отметить, что значительное увеличение длины видео не ущемляет врожденные обобщающие способности модели, и модель продемонстрировала свои преимущества в создании видео различных стилей и разрешений. Мы планируем публично опубликовать исходный код и улучшенную модель.

English

Recently, advancements in video synthesis have attracted significant attention. Video synthesis models such as AnimateDiff and Stable Video Diffusion have demonstrated the practical applicability of diffusion models in creating dynamic visual content. The emergence of SORA has further spotlighted the potential of video generation technologies. Nonetheless, the extension of video lengths has been constrained by the limitations in computational resources. Most existing video synthesis models can only generate short video clips. In this paper, we propose a novel post-tuning methodology for video synthesis models, called ExVideo. This approach is designed to enhance the capability of current video synthesis models, allowing them to produce content over extended temporal durations while incurring lower training expenditures. In particular, we design extension strategies across common temporal model architectures respectively, including 3D convolution, temporal attention, and positional embedding. To evaluate the efficacy of our proposed post-tuning approach, we conduct extension training on the Stable Video Diffusion model. Our approach augments the model's capacity to generate up to 5times its original number of frames, requiring only 1.5k GPU hours of training on a dataset comprising 40k videos. Importantly, the substantial increase in video length doesn't compromise the model's innate generalization capabilities, and the model showcases its advantages in generating videos of diverse styles and resolutions. We will release the source code and the enhanced model publicly.

ExVideo: Расширение моделей диффузии видео с помощью эффективной настройки параметров.

ExVideo: Extending Video Diffusion Models via Parameter-Efficient Post-Tuning

Аннотация

Support