LAMP: Изучение паттерна движения для генерации видео на основе малого числа примеров
LAMP: Learn A Motion Pattern for Few-Shot-Based Video Generation
October 16, 2023
Авторы: Ruiqi Wu, Liangyu Chen, Tong Yang, Chunle Guo, Chongyi Li, Xiangyu Zhang
cs.AI
Аннотация
С впечатляющим прогрессом в генерации изображений на основе диффузии, расширение таких мощных генеративных возможностей до текстово-видео вызывает значительный интерес. Существующие методы либо требуют больших наборов текстово-видео пар и значительных ресурсов для обучения, либо изучают движения, которые точно соответствуют шаблонным видео. Найти баланс между степенью свободы генерации и затратами ресурсов для создания видео является нетривиальной задачей. В нашем исследовании мы представляем фреймворк для тонкой настройки с использованием малого количества данных, LAMP, который позволяет модели генерации изображений на основе диффузии изучить определенный шаблон движения с использованием 8–16 видео на одном GPU. В частности, мы разработали конвейер, основанный на первом кадре, который использует готовую модель текстово-видео для генерации контента, чтобы наша настроенная модель видео-диффузии в основном сосредоточилась на изучении движения. Хорошо развитые техники текстово-видео могут предоставить визуально привлекательный и разнообразный контент в качестве условий генерации, что значительно повышает качество видео и свободу генерации. Для захвата особенностей временного измерения мы расширяем предварительно обученные 2D сверточные слои модели T2I до наших новых временно-пространственных слоев обучения движению и модифицируем блоки внимания до временного уровня. Кроме того, мы разработали эффективный трюк для вывода, shared-noise sampling, который может улучшить стабильность видео с учетом вычислительных затрат. Наш метод также может быть гибко применен к другим задачам, например, анимации реальных изображений и редактированию видео. Многочисленные эксперименты демонстрируют, что LAMP может эффективно изучать шаблон движения на ограниченных данных и генерировать высококачественные видео. Код и модели доступны по адресу https://rq-wu.github.io/projects/LAMP.
English
With the impressive progress in diffusion-based text-to-image generation,
extending such powerful generative ability to text-to-video raises enormous
attention. Existing methods either require large-scale text-video pairs and a
large number of training resources or learn motions that are precisely aligned
with template videos. It is non-trivial to balance a trade-off between the
degree of generation freedom and the resource costs for video generation. In
our study, we present a few-shot-based tuning framework, LAMP, which enables
text-to-image diffusion model Learn A specific Motion Pattern with 8~16 videos
on a single GPU. Specifically, we design a first-frame-conditioned pipeline
that uses an off-the-shelf text-to-image model for content generation so that
our tuned video diffusion model mainly focuses on motion learning. The
well-developed text-to-image techniques can provide visually pleasing and
diverse content as generation conditions, which highly improves video quality
and generation freedom. To capture the features of temporal dimension, we
expand the pretrained 2D convolution layers of the T2I model to our novel
temporal-spatial motion learning layers and modify the attention blocks to the
temporal level. Additionally, we develop an effective inference trick,
shared-noise sampling, which can improve the stability of videos with
computational costs. Our method can also be flexibly applied to other tasks,
e.g. real-world image animation and video editing. Extensive experiments
demonstrate that LAMP can effectively learn the motion pattern on limited data
and generate high-quality videos. The code and models are available at
https://rq-wu.github.io/projects/LAMP.