Vivid-ZOO: Генерация многопланового видео с моделью диффузии
Vivid-ZOO: Multi-View Video Generation with Diffusion Model
June 12, 2024
Авторы: Bing Li, Cheng Zheng, Wenxuan Zhu, Jinjie Mai, Biao Zhang, Peter Wonka, Bernard Ghanem
cs.AI
Аннотация
Хотя модели диффузии показали впечатляющую производительность в генерации 2D изображений/видео, генерация текста в многозрительное видео на основе диффузии (T2MVid) остается малоисследованной. Новые вызовы, предъявляемые генерации T2MVid, заключаются в отсутствии обширных подписанных многозрительных видео и сложности моделирования такого многомерного распределения. В этой связи мы предлагаем новый диффузионный подход, который генерирует высококачественные многозрительные видео, сосредоточенные вокруг динамического 3D объекта из текста. Конкретно, мы разбиваем проблему T2MVid на составляющие пространства точек обзора и времени. Такая факторизация позволяет нам объединить и повторно использовать слои передовых предварительно обученных многозрительных моделей изображений и 2D видео диффузии для обеспечения согласованности многозрительных видео, а также временной согласованности для сгенерированных многозрительных видео, что существенно снижает стоимость обучения. Мы также вводим модули выравнивания для выравнивания латентных пространств слоев из предварительно обученных многозрительных и 2D видео диффузионных моделей, решая проблему несовместимости повторно используемых слоев, возникающую из-за разрыва между 2D и многозрительными данными. В поддержку этого и будущих исследований мы также предоставляем набор данных с подписанными многозрительными видео. Экспериментальные результаты демонстрируют, что наш метод генерирует высококачественные многозрительные видео, проявляющие яркие движения, временную согласованность и согласованность в многозрительном плане при различных текстовых подсказках.
English
While diffusion models have shown impressive performance in 2D image/video
generation, diffusion-based Text-to-Multi-view-Video (T2MVid) generation
remains underexplored. The new challenges posed by T2MVid generation lie in the
lack of massive captioned multi-view videos and the complexity of modeling such
multi-dimensional distribution. To this end, we propose a novel diffusion-based
pipeline that generates high-quality multi-view videos centered around a
dynamic 3D object from text. Specifically, we factor the T2MVid problem into
viewpoint-space and time components. Such factorization allows us to combine
and reuse layers of advanced pre-trained multi-view image and 2D video
diffusion models to ensure multi-view consistency as well as temporal coherence
for the generated multi-view videos, largely reducing the training cost. We
further introduce alignment modules to align the latent spaces of layers from
the pre-trained multi-view and the 2D video diffusion models, addressing the
reused layers' incompatibility that arises from the domain gap between 2D and
multi-view data. In support of this and future research, we further contribute
a captioned multi-view video dataset. Experimental results demonstrate that our
method generates high-quality multi-view videos, exhibiting vivid motions,
temporal coherence, and multi-view consistency, given a variety of text
prompts.