Ouroboros3D: 3D 인식 재귀적 확산을 통한 이미지-3D 생성
Ouroboros3D: Image-to-3D Generation via 3D-aware Recursive Diffusion
June 5, 2024
저자: Hao Wen, Zehuan Huang, Yaohui Wang, Xinyuan Chen, Yu Qiao, Lu Sheng
cs.AI
초록
기존의 단일 이미지에서 3D 생성으로 이어지는 방법들은 일반적으로 두 단계의 프로세스를 거칩니다. 먼저 다중 뷰 이미지를 생성한 다음, 이러한 이미지를 3D 재구성에 사용합니다. 그러나 이 두 단계를 별도로 학습하면 추론 단계에서 상당한 데이터 편향이 발생하여 재구성 결과의 품질에 영향을 미칩니다. 우리는 Ouroboros3D라는 통합 3D 생성 프레임워크를 소개합니다. 이 프레임워크는 확산 기반 다중 뷰 이미지 생성과 3D 재구성을 재귀적 확산 프로세스로 통합합니다. 우리의 프레임워크에서는 이 두 모듈이 자기 조건화 메커니즘을 통해 공동으로 학습되어 서로의 특성에 적응할 수 있도록 하여 강력한 추론을 가능하게 합니다. 다중 뷰 노이즈 제거 과정에서 다중 뷰 확산 모델은 이전 시간 단계에서 재구성 모듈에 의해 렌더링된 3D 인식 맵을 추가 조건으로 사용합니다. 3D 인식 피드백을 포함한 재귀적 확산 프레임워크는 전체 프로세스를 통합하고 기하학적 일관성을 향상시킵니다. 실험 결과, 우리의 프레임워크는 이 두 단계를 분리하거나 추론 단계에서 결합하는 기존 방법들을 능가하는 성능을 보여줍니다. 프로젝트 페이지: https://costwen.github.io/Ouroboros3D/
English
Existing single image-to-3D creation methods typically involve a two-stage
process, first generating multi-view images, and then using these images for 3D
reconstruction. However, training these two stages separately leads to
significant data bias in the inference phase, thus affecting the quality of
reconstructed results. We introduce a unified 3D generation framework, named
Ouroboros3D, which integrates diffusion-based multi-view image generation and
3D reconstruction into a recursive diffusion process. In our framework, these
two modules are jointly trained through a self-conditioning mechanism, allowing
them to adapt to each other's characteristics for robust inference. During the
multi-view denoising process, the multi-view diffusion model uses the 3D-aware
maps rendered by the reconstruction module at the previous timestep as
additional conditions. The recursive diffusion framework with 3D-aware feedback
unites the entire process and improves geometric consistency.Experiments show
that our framework outperforms separation of these two stages and existing
methods that combine them at the inference phase. Project page:
https://costwen.github.io/Ouroboros3D/Summary
AI-Generated Summary