One-2-3-45++: 일관된 다중 뷰 생성과 3D 확산을 통한 단일 이미지에서 빠르게 3D 객체 생성
One-2-3-45++: Fast Single Image to 3D Objects with Consistent Multi-View Generation and 3D Diffusion
November 14, 2023
저자: Minghua Liu, Ruoxi Shi, Linghao Chen, Zhuoyang Zhang, Chao Xu, Xinyue Wei, Hansheng Chen, Chong Zeng, Jiayuan Gu, Hao Su
cs.AI
초록
최근 오픈 월드 3D 객체 생성 분야의 발전은 눈부시며, 이미지-투-3D 방식이 텍스트-투-3D 방식보다 우수한 세밀한 제어를 제공하고 있습니다. 그러나 대부분의 기존 모델들은 실용적인 애플리케이션에 필수적인 두 가지 특징인 빠른 생성 속도와 입력 이미지에 대한 높은 충실도를 동시에 제공하는 데는 미치지 못하고 있습니다. 본 논문에서는 단일 이미지를 약 1분 만에 상세한 텍스처가 적용된 3D 메시로 변환하는 혁신적인 방법인 One-2-3-45++를 소개합니다. 우리의 접근 방식은 2D 확산 모델에 내재된 광범위한 지식과 가치 있지만 제한적인 3D 데이터의 사전 지식을 최대한 활용하는 것을 목표로 합니다. 이는 먼저 일관된 다중 뷰 이미지 생성을 위해 2D 확산 모델을 미세 조정한 다음, 다중 뷰 조건부 3D 네이티브 확산 모델의 도움으로 이러한 이미지를 3D로 고도화함으로써 달성됩니다. 광범위한 실험 평가를 통해 우리의 방법이 원본 입력 이미지를 매우 가깝게 반영하는 고품질의 다양한 3D 자산을 생성할 수 있음을 입증했습니다. 우리의 프로젝트 웹페이지: https://sudo-ai-3d.github.io/One2345plus_page.
English
Recent advancements in open-world 3D object generation have been remarkable,
with image-to-3D methods offering superior fine-grained control over their
text-to-3D counterparts. However, most existing models fall short in
simultaneously providing rapid generation speeds and high fidelity to input
images - two features essential for practical applications. In this paper, we
present One-2-3-45++, an innovative method that transforms a single image into
a detailed 3D textured mesh in approximately one minute. Our approach aims to
fully harness the extensive knowledge embedded in 2D diffusion models and
priors from valuable yet limited 3D data. This is achieved by initially
finetuning a 2D diffusion model for consistent multi-view image generation,
followed by elevating these images to 3D with the aid of multi-view conditioned
3D native diffusion models. Extensive experimental evaluations demonstrate that
our method can produce high-quality, diverse 3D assets that closely mirror the
original input image. Our project webpage:
https://sudo-ai-3d.github.io/One2345plus_page.