DreamVideo: Создание ваших видеоснов с персонализированным объектом и движением
DreamVideo: Composing Your Dream Videos with Customized Subject and Motion
December 7, 2023
Авторы: Yujie Wei, Shiwei Zhang, Zhiwu Qing, Hangjie Yuan, Zhiheng Liu, Yu Liu, Yingya Zhang, Jingren Zhou, Hongming Shan
cs.AI
Аннотация
Персонализированная генерация с использованием диффузионных моделей достигла впечатляющих успехов в создании изображений, но остается неудовлетворительной в сложной задаче генерации видео, так как требует контроля как над объектами, так и над движениями. Для решения этой проблемы мы представляем DreamVideo — новый подход к созданию персонализированных видео на основе нескольких статичных изображений желаемого объекта и нескольких видео с целевым движением. DreamVideo разделяет эту задачу на два этапа: изучение объекта и изучение движения, используя предварительно обученную видео-диффузионную модель. На этапе изучения объекта ставится цель точно зафиксировать детали внешнего вида объекта на основе предоставленных изображений, что достигается за счет комбинации текстовой инверсии и тонкой настройки нашего тщательно разработанного адаптера идентичности. На этапе изучения движения мы создаем адаптер движения и настраиваем его на предоставленных видео, чтобы эффективно моделировать целевой паттерн движения. Комбинация этих двух легковесных и эффективных адаптеров позволяет гибко настраивать любой объект с любым движением. Обширные экспериментальные результаты демонстрируют превосходство нашего DreamVideo по сравнению с современными методами персонализированной генерации видео. Страница проекта доступна по адресу https://dreamvideo-t2v.github.io.
English
Customized generation using diffusion models has made impressive progress in
image generation, but remains unsatisfactory in the challenging video
generation task, as it requires the controllability of both subjects and
motions. To that end, we present DreamVideo, a novel approach to generating
personalized videos from a few static images of the desired subject and a few
videos of target motion. DreamVideo decouples this task into two stages,
subject learning and motion learning, by leveraging a pre-trained video
diffusion model. The subject learning aims to accurately capture the fine
appearance of the subject from provided images, which is achieved by combining
textual inversion and fine-tuning of our carefully designed identity adapter.
In motion learning, we architect a motion adapter and fine-tune it on the given
videos to effectively model the target motion pattern. Combining these two
lightweight and efficient adapters allows for flexible customization of any
subject with any motion. Extensive experimental results demonstrate the
superior performance of our DreamVideo over the state-of-the-art methods for
customized video generation. Our project page is at
https://dreamvideo-t2v.github.io.