DreamComposer: 다중 뷰 조건을 통한 제어 가능한 3D 객체 생성
DreamComposer: Controllable 3D Object Generation via Multi-View Conditions
December 6, 2023
저자: Yunhan Yang, Yukun Huang, Xiaoyang Wu, Yuan-Chen Guo, Song-Hai Zhang, Hengshuang Zhao, Tong He, Xihui Liu
cs.AI
초록
사전 학습된 2D 대규모 생성 모델을 활용하여 최근 연구들은 단일 실세계 이미지에서 고품질의 새로운 뷰를 생성할 수 있게 되었습니다. 그러나 다중 뷰에서의 정보 부족으로 인해, 이러한 연구들은 제어 가능한 새로운 뷰를 생성하는 데 어려움을 겪고 있습니다. 본 논문에서는 다중 뷰 조건을 주입하여 기존의 뷰 인식 확산 모델을 향상시킬 수 있는 유연하고 확장 가능한 프레임워크인 DreamComposer를 제안합니다. 구체적으로, DreamComposer는 먼저 뷰 인식 3D 리프팅 모듈을 사용하여 다중 뷰에서 객체의 3D 표현을 획득합니다. 그런 다음, 다중 뷰 특징 융합 모듈을 통해 3D 표현에서 목표 뷰의 잠재 특징을 렌더링합니다. 마지막으로, 다중 뷰 입력에서 추출된 목표 뷰 특징을 사전 학습된 확산 모델에 주입합니다. 실험 결과, DreamComposer는 제로샷 새로운 뷰 합성을 위한 최첨단 확산 모델과 호환되며, 다중 뷰 조건을 통해 고품질의 새로운 뷰 이미지를 생성하여 제어 가능한 3D 객체 재구성 및 다양한 다른 응용 프로그램에 적합하게 만드는 것을 보여줍니다.
English
Utilizing pre-trained 2D large-scale generative models, recent works are
capable of generating high-quality novel views from a single in-the-wild image.
However, due to the lack of information from multiple views, these works
encounter difficulties in generating controllable novel views. In this paper,
we present DreamComposer, a flexible and scalable framework that can enhance
existing view-aware diffusion models by injecting multi-view conditions.
Specifically, DreamComposer first uses a view-aware 3D lifting module to obtain
3D representations of an object from multiple views. Then, it renders the
latent features of the target view from 3D representations with the multi-view
feature fusion module. Finally the target view features extracted from
multi-view inputs are injected into a pre-trained diffusion model. Experiments
show that DreamComposer is compatible with state-of-the-art diffusion models
for zero-shot novel view synthesis, further enhancing them to generate
high-fidelity novel view images with multi-view conditions, ready for
controllable 3D object reconstruction and various other applications.