뷰포인트 텍스트 인버전: 사전 학습된 2D 디퓨전 모델을 활용한 새로운 뷰 합성의 가능성
Viewpoint Textual Inversion: Unleashing Novel View Synthesis with Pretrained 2D Diffusion Models
September 14, 2023
저자: James Burgess, Kuan-Chieh Wang, Serena Yeung
cs.AI
초록
텍스트-이미지 확산 모델은 객체 간의 공간적 관계를 이해하지만, 2D 감독만으로 세계의 진정한 3D 구조를 표현할 수 있을까요? 우리는 Stable Diffusion과 같은 2D 이미지 확산 모델에 3D 지식이 인코딩되어 있으며, 이 구조를 3D 비전 작업에 활용할 수 있음을 보여줍니다. 우리의 방법인 Viewpoint Neural Textual Inversion(ViewNeTI)는 고정된 확산 모델에서 생성된 이미지 내 객체의 3D 시점을 제어합니다. 우리는 작은 신경망 매퍼를 훈련시켜 카메라 시점 매개변수를 입력받고 텍스트 인코더 잠재 변수를 예측하도록 합니다; 이 잠재 변수는 확산 생성 과정을 조건화하여 원하는 카메라 시점을 가진 이미지를 생성합니다.
ViewNeTI는 자연스럽게 새로운 시점 합성(Novel View Synthesis, NVS) 문제를 해결합니다. 고정된 확산 모델을 사전 지식으로 활용함으로써, 우리는 매우 적은 수의 입력 뷰로 NVS를 해결할 수 있으며, 심지어 단일 뷰에서의 새로운 시점 합성도 가능합니다. 우리의 단일 뷰 NVS 예측은 기존 방법에 비해 우수한 의미론적 세부 사항과 사실성을 가지고 있습니다. 우리의 접근 방식은 희소 3D 비전 문제에 내재된 불확실성을 모델링하는 데 적합하며, 다양한 샘플을 효율적으로 생성할 수 있습니다. 우리의 시점 제어 메커니즘은 일반적이며, 사용자 정의 프롬프트로 생성된 이미지에서도 카메라 시점을 변경할 수 있습니다.
English
Text-to-image diffusion models understand spatial relationship between
objects, but do they represent the true 3D structure of the world from only 2D
supervision? We demonstrate that yes, 3D knowledge is encoded in 2D image
diffusion models like Stable Diffusion, and we show that this structure can be
exploited for 3D vision tasks. Our method, Viewpoint Neural Textual Inversion
(ViewNeTI), controls the 3D viewpoint of objects in generated images from
frozen diffusion models. We train a small neural mapper to take camera
viewpoint parameters and predict text encoder latents; the latents then
condition the diffusion generation process to produce images with the desired
camera viewpoint.
ViewNeTI naturally addresses Novel View Synthesis (NVS). By leveraging the
frozen diffusion model as a prior, we can solve NVS with very few input views;
we can even do single-view novel view synthesis. Our single-view NVS
predictions have good semantic details and photorealism compared to prior
methods. Our approach is well suited for modeling the uncertainty inherent in
sparse 3D vision problems because it can efficiently generate diverse samples.
Our view-control mechanism is general, and can even change the camera view in
images generated by user-defined prompts.