CraftsMan: 3D 네이티브 생성 및 인터랙티브 지오메트리 리파이너를 통한 고품질 메시 생성
CraftsMan: High-fidelity Mesh Generation with 3D Native Generation and Interactive Geometry Refiner
May 23, 2024
저자: Weiyu Li, Jiarui Liu, Rui Chen, Yixun Liang, Xuelin Chen, Ping Tan, Xiaoxiao Long
cs.AI
초록
우리는 CraftsMan이라는 새로운 생성형 3D 모델링 시스템을 소개합니다. 이 시스템은 다양한 형태, 규칙적인 메시 토폴로지, 그리고 상세한 표면을 가진 고품질 3D 형상을 생성할 수 있으며, 특히 사용자가 상호작용 방식으로 형상을 세부 조정할 수 있도록 합니다. 3D 생성 기술의 상당한 발전에도 불구하고, 기존 방법들은 여전히 긴 최적화 과정, 불규칙한 메시 토폴로지, 노이즈가 있는 표면, 그리고 사용자 편집을 수용하는 데 어려움을 겪고 있어, 3D 모델링 소프트웨어에서의 광범위한 채택과 구현을 방해하고 있습니다. 우리의 작업은 일반적으로 작업의 전체적인 형태를 먼저 대략적으로 잡고 그 후에 표면 세부 사항을 정교하게 다듬는 장인의 방식에서 영감을 받았습니다. 구체적으로, 우리는 잠재 공간 기반의 3D 표현에서 학습된 잠재 공간에서 작동하는 3D 네이티브 확산 모델을 사용하여 규칙적인 메시 토폴로지를 가진 대략적인 형상을 몇 초 만에 생성합니다. 특히, 이 과정은 텍스트 프롬프트나 참조 이미지를 입력으로 받아 강력한 다중 뷰(MV) 확산 모델을 활용하여 대략적인 형상의 여러 뷰를 생성하고, 이를 우리의 MV 조건부 3D 확산 모델에 입력하여 3D 형상을 생성함으로써 견고성과 일반화 능력을 크게 향상시킵니다. 그 후, 노말 기반의 형상 정제기를 사용하여 표면 세부 사항을 크게 개선합니다. 이 정제 과정은 자동으로 수행되거나, 사용자가 제공한 편집과 함께 상호작용적으로 수행될 수 있습니다. 광범위한 실험을 통해 우리의 방법이 기존 방법들에 비해 우수한 품질의 3D 자산을 생성하는 데 높은 효율성을 달성함을 입증했습니다. 홈페이지: https://craftsman3d.github.io/, 코드: https://github.com/wyysf-98/CraftsMan
English
We present a novel generative 3D modeling system, coined CraftsMan, which can
generate high-fidelity 3D geometries with highly varied shapes, regular mesh
topologies, and detailed surfaces, and, notably, allows for refining the
geometry in an interactive manner. Despite the significant advancements in 3D
generation, existing methods still struggle with lengthy optimization
processes, irregular mesh topologies, noisy surfaces, and difficulties in
accommodating user edits, consequently impeding their widespread adoption and
implementation in 3D modeling software. Our work is inspired by the craftsman,
who usually roughs out the holistic figure of the work first and elaborates the
surface details subsequently. Specifically, we employ a 3D native diffusion
model, which operates on latent space learned from latent set-based 3D
representations, to generate coarse geometries with regular mesh topology in
seconds. In particular, this process takes as input a text prompt or a
reference image and leverages a powerful multi-view (MV) diffusion model to
generate multiple views of the coarse geometry, which are fed into our
MV-conditioned 3D diffusion model for generating the 3D geometry, significantly
improving robustness and generalizability. Following that, a normal-based
geometry refiner is used to significantly enhance the surface details. This
refinement can be performed automatically, or interactively with user-supplied
edits. Extensive experiments demonstrate that our method achieves high efficacy
in producing superior-quality 3D assets compared to existing methods. HomePage:
https://craftsman3d.github.io/, Code: https://github.com/wyysf-98/CraftsManSummary
AI-Generated Summary