ZeroSmooth: Обучение-бесплатная адаптация диффузора для генерации видео высокой частоты кадров
ZeroSmooth: Training-free Diffuser Adaptation for High Frame Rate Video Generation
June 3, 2024
Авторы: Shaoshu Yang, Yong Zhang, Xiaodong Cun, Ying Shan, Ran He
cs.AI
Аннотация
Генерация видео сделала замечательный прогресс в последние годы, особенно с появлением моделей диффузии видео. Многие модели генерации видео могут создавать правдоподобные синтетические видео, например, устойчивая диффузия видео (SVD). Однако большинство моделей видео могут генерировать только видео с низкой частотой кадров из-за ограниченной памяти GPU, а также сложности моделирования большого набора кадров. Обучающие видео всегда равномерно выбираются с определенным интервалом для временного сжатия. Предыдущие методы увеличивают частоту кадров либо обучением модели интерполяции видео в пространстве пикселей как этап последующей обработки, либо обучением модели интерполяции в скрытом пространстве для определенной базовой видео модели. В данной статье мы предлагаем метод интерполяции видео без обучения для генеративных моделей диффузии видео, который обобщаем на различные модели способом "включить и работать". Мы исследуем нелинейность в пространстве признаков моделей диффузии видео и преобразуем модель видео в самодиффузионную модель видео с включением разработанных модулей коррекции скрытого состояния. Предложенная самодиффузионная архитектура и модуль коррекции предложены для сохранения временной согласованности между ключевыми кадрами и интерполированными кадрами. Проведены обширные оценки на нескольких популярных видео моделях, чтобы продемонстрировать эффективность предложенного метода, особенно то, что наш метод интерполяции без обучения даже сравним с обученными моделями интерполяции, поддерживаемыми огромными вычислительными ресурсами и масштабными наборами данных.
English
Video generation has made remarkable progress in recent years, especially
since the advent of the video diffusion models. Many video generation models
can produce plausible synthetic videos, e.g., Stable Video Diffusion (SVD).
However, most video models can only generate low frame rate videos due to the
limited GPU memory as well as the difficulty of modeling a large set of frames.
The training videos are always uniformly sampled at a specified interval for
temporal compression. Previous methods promote the frame rate by either
training a video interpolation model in pixel space as a postprocessing stage
or training an interpolation model in latent space for a specific base video
model. In this paper, we propose a training-free video interpolation method for
generative video diffusion models, which is generalizable to different models
in a plug-and-play manner. We investigate the non-linearity in the feature
space of video diffusion models and transform a video model into a
self-cascaded video diffusion model with incorporating the designed hidden
state correction modules. The self-cascaded architecture and the correction
module are proposed to retain the temporal consistency between key frames and
the interpolated frames. Extensive evaluations are preformed on multiple
popular video models to demonstrate the effectiveness of the propose method,
especially that our training-free method is even comparable to trained
interpolation models supported by huge compute resources and large-scale
datasets.Summary
AI-Generated Summary