ChatPaper.aiChatPaper

제어된 다중 뷰 편집을 활용한 일반적 3D 확산 어댑터

Generic 3D Diffusion Adapter Using Controlled Multi-View Editing

March 18, 2024
저자: Hansheng Chen, Ruoxi Shi, Yulin Liu, Bokui Shen, Jiayuan Gu, Gordon Wetzstein, Hao Su, Leonidas Guibas
cs.AI

초록

오픈 도메인 3D 객체 합성은 데이터의 부족과 높은 계산 복잡성으로 인해 이미지 합성에 비해 뒤처져 왔습니다. 이러한 격차를 해소하기 위해 최근 연구들은 멀티뷰 디퓨전을 탐구했지만, 3D 일관성, 시각적 품질 또는 효율성 중 하나 이상에서 부족한 경우가 많았습니다. 본 논문은 SDEdit의 3D 버전으로 기능하는 MVEdit을 제안하며, 멀티뷰 이미지를 공동으로 노이즈 제거하고 고품질의 텍스처 메쉬를 출력하기 위해 ancestral sampling을 사용합니다. 기존의 2D 디퓨전 모델을 기반으로 구축된 MVEdit은 학습이 필요 없는 3D 어댑터를 통해 3D 일관성을 달성합니다. 이 어댑터는 마지막 타임스텝의 2D 뷰를 일관된 3D 표현으로 변환한 다음, 렌더링된 뷰를 사용하여 다음 타임스텝의 2D 뷰를 조건화하며, 시각적 품질을 저하시키지 않습니다. 2-5분의 추론 시간으로 이 프레임워크는 품질과 속도 사이에서 스코어 디스틸레이션보다 더 나은 균형을 달성합니다. MVEdit은 매우 다재다능하고 확장 가능하며, 텍스트/이미지에서 3D 생성, 3D에서 3D 편집, 고품질 텍스처 합성 등 다양한 응용 분야에 적용할 수 있습니다. 특히, 평가 결과 이미지에서 3D 생성 및 텍스트 기반 텍스처 생성 작업에서 최첨단 성능을 보여줍니다. 또한, 제한된 리소스로 작은 3D 데이터셋에서 2D 잠재 디퓨전 모델을 미세 조정하는 방법을 소개하여, 빠른 저해상도 텍스트에서 3D 초기화를 가능하게 합니다.
English
Open-domain 3D object synthesis has been lagging behind image synthesis due to limited data and higher computational complexity. To bridge this gap, recent works have investigated multi-view diffusion but often fall short in either 3D consistency, visual quality, or efficiency. This paper proposes MVEdit, which functions as a 3D counterpart of SDEdit, employing ancestral sampling to jointly denoise multi-view images and output high-quality textured meshes. Built on off-the-shelf 2D diffusion models, MVEdit achieves 3D consistency through a training-free 3D Adapter, which lifts the 2D views of the last timestep into a coherent 3D representation, then conditions the 2D views of the next timestep using rendered views, without uncompromising visual quality. With an inference time of only 2-5 minutes, this framework achieves better trade-off between quality and speed than score distillation. MVEdit is highly versatile and extendable, with a wide range of applications including text/image-to-3D generation, 3D-to-3D editing, and high-quality texture synthesis. In particular, evaluations demonstrate state-of-the-art performance in both image-to-3D and text-guided texture generation tasks. Additionally, we introduce a method for fine-tuning 2D latent diffusion models on small 3D datasets with limited resources, enabling fast low-resolution text-to-3D initialization.

Summary

AI-Generated Summary

PDF152December 15, 2024