One-2-3-45: 단일 이미지를 45초 만에 3D 메시로 변환, 개별 형상 최적화 없이
One-2-3-45: Any Single Image to 3D Mesh in 45 Seconds without Per-Shape Optimization
June 29, 2023
저자: Minghua Liu, Chao Xu, Haian Jin, Linghao Chen, Mukund Varma T, Zexiang Xu, Hao Su
cs.AI
초록
단일 이미지 3D 복원은 자연 세계에 대한 광범위한 지식을 요구하는 중요하면서도 어려운 과제입니다. 기존의 많은 방법들은 2D 확산 모델의 지도 하에 신경 방사장(NeRF)을 최적화하여 이 문제를 해결하지만, 긴 최적화 시간, 3D 불일치 결과, 그리고 불량한 형상 문제를 겪습니다. 본 연구에서는 단일 이미지를 입력으로 받아 360도 3D 텍스처 메시를 단일 순방향 전달로 생성하는 새로운 방법을 제안합니다. 단일 이미지가 주어지면, 먼저 뷰 조건부 2D 확산 모델인 Zero123을 사용하여 입력 뷰에 대한 다중 뷰 이미지를 생성한 후, 이를 3D 공간으로 끌어올리는 것을 목표로 합니다. 기존의 복원 방법들은 일관되지 않은 다중 뷰 예측에 어려움을 겪기 때문에, 우리는 SDF 기반의 일반화 가능한 신경 표면 복원 방법을 기반으로 3D 복원 모듈을 구축하고, 360도 메시 복원을 가능하게 하는 몇 가지 중요한 학습 전략을 제안합니다. 비용이 많이 드는 최적화 없이도, 우리의 방법은 기존 방법들보다 훨씬 짧은 시간 내에 3D 형상을 복원합니다. 더 나아가, 우리의 방법은 더 나은 형상을 선호하며, 더 일관된 3D 결과를 생성하고, 입력 이미지에 더 밀접하게 부합합니다. 우리는 합성 데이터와 실제 이미지 모두에서 우리의 접근 방식을 평가하고, 메시 품질과 실행 시간 측면에서 우수성을 입증합니다. 또한, 우리의 접근 방식은 기존의 텍스트-이미지 확산 모델과 통합하여 텍스트-3D 작업을 원활하게 지원할 수 있습니다.
English
Single image 3D reconstruction is an important but challenging task that
requires extensive knowledge of our natural world. Many existing methods solve
this problem by optimizing a neural radiance field under the guidance of 2D
diffusion models but suffer from lengthy optimization time, 3D inconsistency
results, and poor geometry. In this work, we propose a novel method that takes
a single image of any object as input and generates a full 360-degree 3D
textured mesh in a single feed-forward pass. Given a single image, we first use
a view-conditioned 2D diffusion model, Zero123, to generate multi-view images
for the input view, and then aim to lift them up to 3D space. Since traditional
reconstruction methods struggle with inconsistent multi-view predictions, we
build our 3D reconstruction module upon an SDF-based generalizable neural
surface reconstruction method and propose several critical training strategies
to enable the reconstruction of 360-degree meshes. Without costly
optimizations, our method reconstructs 3D shapes in significantly less time
than existing methods. Moreover, our method favors better geometry, generates
more 3D consistent results, and adheres more closely to the input image. We
evaluate our approach on both synthetic data and in-the-wild images and
demonstrate its superiority in terms of both mesh quality and runtime. In
addition, our approach can seamlessly support the text-to-3D task by
integrating with off-the-shelf text-to-image diffusion models.