Vivid-ZOO: 확산 모델을 활용한 다중 뷰 비디오 생성
Vivid-ZOO: Multi-View Video Generation with Diffusion Model
June 12, 2024
저자: Bing Li, Cheng Zheng, Wenxuan Zhu, Jinjie Mai, Biao Zhang, Peter Wonka, Bernard Ghanem
cs.AI
초록
확산 모델이 2D 이미지/비디오 생성에서 인상적인 성능을 보여왔음에도 불구하고, 텍스트-투-다중뷰-비디오(T2MVid) 생성에 대한 확산 기반 연구는 아직 미흡한 상태입니다. T2MVid 생성이 제기하는 새로운 도전 과제는 대규모 캡션이 달린 다중뷰 비디오 데이터의 부족과 이러한 다차원 분포를 모델링하는 복잡성에 있습니다. 이를 해결하기 위해, 우리는 텍스트로부터 동적 3D 객체를 중심으로 고품질 다중뷰 비디오를 생성하는 새로운 확산 기반 파이프라인을 제안합니다. 구체적으로, 우리는 T2MVid 문제를 뷰포인트 공간과 시간 구성 요소로 분해합니다. 이러한 분해를 통해 사전 훈련된 고급 다중뷰 이미지와 2D 비디오 확산 모델의 레이어를 결합하고 재사용함으로써 생성된 다중뷰 비디오의 다중뷰 일관성과 시간적 일관성을 보장하며, 이는 학습 비용을 크게 절감합니다. 또한, 우리는 사전 훈련된 다중뷰와 2D 비디오 확산 모델의 레이어 간 잠재 공간을 정렬하기 위해 정렬 모듈을 도입하여 2D와 다중뷰 데이터 간의 도메인 격차로 인해 발생하는 재사용 레이어의 비호환성을 해결합니다. 이 연구 및 향후 연구를 지원하기 위해, 우리는 캡션이 달린 다중뷰 비디오 데이터셋을 추가로 공개합니다. 실험 결과는 우리의 방법이 다양한 텍스트 프롬프트에 대해 생동감 있는 움직임, 시간적 일관성, 그리고 다중뷰 일관성을 보여주는 고품질 다중뷰 비디오를 생성함을 입증합니다.
English
While diffusion models have shown impressive performance in 2D image/video
generation, diffusion-based Text-to-Multi-view-Video (T2MVid) generation
remains underexplored. The new challenges posed by T2MVid generation lie in the
lack of massive captioned multi-view videos and the complexity of modeling such
multi-dimensional distribution. To this end, we propose a novel diffusion-based
pipeline that generates high-quality multi-view videos centered around a
dynamic 3D object from text. Specifically, we factor the T2MVid problem into
viewpoint-space and time components. Such factorization allows us to combine
and reuse layers of advanced pre-trained multi-view image and 2D video
diffusion models to ensure multi-view consistency as well as temporal coherence
for the generated multi-view videos, largely reducing the training cost. We
further introduce alignment modules to align the latent spaces of layers from
the pre-trained multi-view and the 2D video diffusion models, addressing the
reused layers' incompatibility that arises from the domain gap between 2D and
multi-view data. In support of this and future research, we further contribute
a captioned multi-view video dataset. Experimental results demonstrate that our
method generates high-quality multi-view videos, exhibiting vivid motions,
temporal coherence, and multi-view consistency, given a variety of text
prompts.Summary
AI-Generated Summary