Isotropic3D: 단일 CLIP 임베딩 기반 이미지-3D 생성
Isotropic3D: Image-to-3D Generation Based on a Single CLIP Embedding
March 15, 2024
저자: Pengkun Liu, Yikai Wang, Fuchun Sun, Jiafang Li, Hang Xiao, Hongxiang Xue, Xinzhou Wang
cs.AI
초록
사전 학습된 2D 확산 모델의 점진적인 활용 가능성에 고무되어, Score Distillation Sampling(SDS)을 활용한 이미지-3D 생성은 놀라운 진전을 이루고 있습니다. 대부분의 기존 방법들은 참조 이미지를 조건으로 사용하는 2D 확산 모델로부터의 새로운 시점 리프팅을 결합하면서 참조 시점에서 엄격한 L2 이미지 감독을 적용합니다. 그러나 이미지에 지나치게 의존하는 것은 2D 확산 모델의 귀납적 지식을 손상시켜 종종 평평하거나 왜곡된 3D 생성으로 이어질 수 있습니다. 본 연구에서는 이미지-3D 생성을 새로운 관점에서 재검토하고, 단일 이미지 CLIP 임베딩만을 입력으로 받는 이미지-3D 생성 파이프라인인 Isotropic3D를 제안합니다. Isotropic3D는 SDS 손실에만 의존함으로써 방위각에 대해 등방성 최적화를 가능하게 합니다. 우리 프레임워크의 핵심은 두 단계의 확산 모델 미세 조정에 있습니다. 먼저, 텍스트 인코더를 이미지 인코더로 대체하여 텍스트-3D 확산 모델을 미세 조정함으로써 모델이 이미지-이미지 변환 능력을 예비적으로 획득합니다. 두 번째로, 노이즈가 없는 참조 이미지를 명시적 조건으로 사용하여 노이즈가 있는 다중 시점 이미지와 결합하는 Explicit Multi-view Attention(EMA)을 사용하여 미세 조정을 수행합니다. CLIP 임베딩은 전체 과정 동안 확산 모델에 전송되며, 참조 이미지는 미세 조정 후 폐기됩니다. 결과적으로, 단일 이미지 CLIP 임베딩만으로 Isotropic3D는 상호 일관된 다중 시점 이미지와 더 대칭적이고 깔끔한 콘텐츠, 균형 잡힌 기하학, 풍부한 색상 질감, 그리고 왜곡이 적은 3D 모델을 생성할 수 있으며, 여전히 참조 이미지와의 유사성을 크게 유지합니다. 프로젝트 페이지는 https://isotropic3d.github.io/에서 확인할 수 있으며, 코드와 모델은 https://github.com/pkunliu/Isotropic3D에서 이용 가능합니다.
English
Encouraged by the growing availability of pre-trained 2D diffusion models,
image-to-3D generation by leveraging Score Distillation Sampling (SDS) is
making remarkable progress. Most existing methods combine novel-view lifting
from 2D diffusion models which usually take the reference image as a condition
while applying hard L2 image supervision at the reference view. Yet heavily
adhering to the image is prone to corrupting the inductive knowledge of the 2D
diffusion model leading to flat or distorted 3D generation frequently. In this
work, we reexamine image-to-3D in a novel perspective and present Isotropic3D,
an image-to-3D generation pipeline that takes only an image CLIP embedding as
input. Isotropic3D allows the optimization to be isotropic w.r.t. the azimuth
angle by solely resting on the SDS loss. The core of our framework lies in a
two-stage diffusion model fine-tuning. Firstly, we fine-tune a text-to-3D
diffusion model by substituting its text encoder with an image encoder, by
which the model preliminarily acquires image-to-image capabilities. Secondly,
we perform fine-tuning using our Explicit Multi-view Attention (EMA) which
combines noisy multi-view images with the noise-free reference image as an
explicit condition. CLIP embedding is sent to the diffusion model throughout
the whole process while reference images are discarded once after fine-tuning.
As a result, with a single image CLIP embedding, Isotropic3D is capable of
generating multi-view mutually consistent images and also a 3D model with more
symmetrical and neat content, well-proportioned geometry, rich colored texture,
and less distortion compared with existing image-to-3D methods while still
preserving the similarity to the reference image to a large extent. The project
page is available at https://isotropic3d.github.io/. The code and models are
available at https://github.com/pkunliu/Isotropic3D.Summary
AI-Generated Summary