ChatPaper.aiChatPaper

Magic123: 2D 및 3D 확산 사전 지식을 활용한 단일 이미지에서 고품질 3D 객체 생성

Magic123: One Image to High-Quality 3D Object Generation Using Both 2D and 3D Diffusion Priors

June 30, 2023
저자: Guocheng Qian, Jinjie Mai, Abdullah Hamdi, Jian Ren, Aliaksandr Siarohin, Bing Li, Hsin-Ying Lee, Ivan Skorokhodov, Peter Wonka, Sergey Tulyakov, Bernard Ghanem
cs.AI

초록

우리는 단일 비정렬 야외 이미지로부터 고품질의 텍스처가 적용된 3D 메시를 생성하기 위해 2D와 3D 사전 지식을 모두 활용하는 두 단계의 coarse-to-fine 접근법인 Magic123을 제안합니다. 첫 번째 단계에서는 신경 방사 필드(Neural Radiance Field)를 최적화하여 대략적인 형상을 생성합니다. 두 번째 단계에서는 메모리 효율적인 미분 가능 메시 표현을 채택하여 시각적으로 매력적인 텍스처를 가진 고해상도 메시를 생성합니다. 두 단계 모두에서 3D 콘텐츠는 참조 뷰 감독과 2D 및 3D 확산 사전 지식의 조합에 의해 안내되는 새로운 뷰를 통해 학습됩니다. 우리는 생성된 형상의 탐색(더 상상력 풍부)과 활용(더 정확)을 제어하기 위해 2D와 3D 사전 지식 간의 단일 트레이드오프 파라미터를 도입했습니다. 또한, 텍스트 반전(Textual Inversion)과 단안 깊이 정규화를 사용하여 뷰 간 일관된 외관을 유도하고 퇴화된 해결책을 방지합니다. Magic123은 합성 벤치마크와 다양한 실제 이미지에 대한 광범위한 실험을 통해 검증된 바와 같이, 기존의 이미지-투-3D 기술에 비해 상당한 개선을 보여줍니다. 우리의 코드, 모델 및 생성된 3D 자산은 https://github.com/guochengqian/Magic123에서 확인할 수 있습니다.
English
We present Magic123, a two-stage coarse-to-fine approach for high-quality, textured 3D meshes generation from a single unposed image in the wild using both2D and 3D priors. In the first stage, we optimize a neural radiance field to produce a coarse geometry. In the second stage, we adopt a memory-efficient differentiable mesh representation to yield a high-resolution mesh with a visually appealing texture. In both stages, the 3D content is learned through reference view supervision and novel views guided by a combination of 2D and 3D diffusion priors. We introduce a single trade-off parameter between the 2D and 3D priors to control exploration (more imaginative) and exploitation (more precise) of the generated geometry. Additionally, we employ textual inversion and monocular depth regularization to encourage consistent appearances across views and to prevent degenerate solutions, respectively. Magic123 demonstrates a significant improvement over previous image-to-3D techniques, as validated through extensive experiments on synthetic benchmarks and diverse real-world images. Our code, models, and generated 3D assets are available at https://github.com/guochengqian/Magic123.
PDF434December 15, 2024