Vivid-ZOO: Geração de Vídeo Multi-View com Modelo de Difusão
Vivid-ZOO: Multi-View Video Generation with Diffusion Model
June 12, 2024
Autores: Bing Li, Cheng Zheng, Wenxuan Zhu, Jinjie Mai, Biao Zhang, Peter Wonka, Bernard Ghanem
cs.AI
Resumo
Embora os modelos de difusão tenham demonstrado desempenho impressionante na geração de imagens/vídeos 2D, a geração de Vídeo Multi-visão a partir de Texto (T2MVid) baseada em difusão permanece pouco explorada. Os novos desafios apresentados pela geração de T2MVid residem na escassez de vídeos multi-visão legendados em grande escala e na complexidade de modelar tal distribuição multidimensional. Para isso, propomos um novo pipeline baseado em difusão que gera vídeos multi-visão de alta qualidade centrados em um objeto 3D dinâmico a partir de texto. Especificamente, fatoramos o problema T2MVid em componentes de espaço de visão e tempo. Essa fatoração nos permite combinar e reutilizar camadas de modelos de difusão de imagem multi-visão e vídeo 2D pré-treinados avançados para garantir consistência multi-visão e coerência temporal para os vídeos multi-visão gerados, reduzindo significativamente o custo de treinamento. Além disso, introduzimos módulos de alinhamento para alinhar os espaços latentes das camadas dos modelos de difusão de vídeo 2D e multi-visão pré-treinados, abordando a incompatibilidade das camadas reutilizadas que surge da lacuna de domínio entre dados 2D e multi-visão. Para apoiar esta e futuras pesquisas, contribuímos ainda com um conjunto de dados de vídeos multi-visão legendados. Os resultados experimentais demonstram que nosso método gera vídeos multi-visão de alta qualidade, exibindo movimentos vívidos, coerência temporal e consistência multi-visão, dada uma variedade de prompts de texto.
English
While diffusion models have shown impressive performance in 2D image/video
generation, diffusion-based Text-to-Multi-view-Video (T2MVid) generation
remains underexplored. The new challenges posed by T2MVid generation lie in the
lack of massive captioned multi-view videos and the complexity of modeling such
multi-dimensional distribution. To this end, we propose a novel diffusion-based
pipeline that generates high-quality multi-view videos centered around a
dynamic 3D object from text. Specifically, we factor the T2MVid problem into
viewpoint-space and time components. Such factorization allows us to combine
and reuse layers of advanced pre-trained multi-view image and 2D video
diffusion models to ensure multi-view consistency as well as temporal coherence
for the generated multi-view videos, largely reducing the training cost. We
further introduce alignment modules to align the latent spaces of layers from
the pre-trained multi-view and the 2D video diffusion models, addressing the
reused layers' incompatibility that arises from the domain gap between 2D and
multi-view data. In support of this and future research, we further contribute
a captioned multi-view video dataset. Experimental results demonstrate that our
method generates high-quality multi-view videos, exhibiting vivid motions,
temporal coherence, and multi-view consistency, given a variety of text
prompts.