FlexiDreamer: FlexiCubes를 활용한 단일 이미지에서 3D 생성
FlexiDreamer: Single Image-to-3D Generation with FlexiCubes
April 1, 2024
저자: Ruowen Zhao, Zhengyi Wang, Yikai Wang, Zihan Zhou, Jun Zhu
cs.AI
초록
텍스트 프롬프트나 단일 이미지로부터 3D 콘텐츠를 생성하는 기술은 최근 품질과 속도 면에서 놀라운 발전을 이루었습니다. 이 분야의 주요 패러다임 중 하나는 일관된 다중 뷰 이미지를 생성한 후 희소 뷰 재구성을 수행하는 것입니다. 그러나 메시 표현을 직접 변형하여 목표 토폴로지에 접근하는 것이 어렵기 때문에, 대부분의 방법론은 희소 뷰 재구성 과정에서 NeRF와 같은 암묵적 표현을 학습하고, 후처리 추출을 통해 목표 메시를 획득합니다. 암묵적 표현은 풍부한 3D 정보를 효과적으로 모델링할 수 있지만, 일반적으로 학습에 긴 수렴 시간이 필요합니다. 또한, 암묵적 필드에서의 후처리 추출 작업은 원치 않는 시각적 결함을 유발하기도 합니다. 본 논문에서는 목표 메시를 종단간 방식으로 재구성하는 새로운 단일 이미지-3D 생성 프레임워크인 FlexiDreamer를 제안합니다. FlexiCubes라는 유연한 그래디언트 기반 추출 방식을 활용함으로써, 우리의 방법은 후처리로 인한 결함을 피하고 목표 메시를 직접 획득할 수 있도록 합니다. 더불어, FlexiCubes의 암묵적 필드에 점진적으로 활성화되는 다중 해상도 해시 그리드 인코딩 방식을 도입하여, 단계별 최적화를 위한 기하학적 세부 사항을 효과적으로 포착할 수 있도록 합니다. 특히, FlexiDreamer는 단일 NVIDIA A100 GPU에서 단일 뷰 이미지로부터 밀집 3D 구조를 약 1분 만에 복원하며, 이전 방법론들을 큰 차이로 능가합니다.
English
3D content generation from text prompts or single images has made remarkable
progress in quality and speed recently. One of its dominant paradigms involves
generating consistent multi-view images followed by a sparse-view
reconstruction. However, due to the challenge of directly deforming the mesh
representation to approach the target topology, most methodologies learn an
implicit representation (such as NeRF) during the sparse-view reconstruction
and acquire the target mesh by a post-processing extraction. Although the
implicit representation can effectively model rich 3D information, its training
typically entails a long convergence time. In addition, the post-extraction
operation from the implicit field also leads to undesirable visual artifacts.
In this paper, we propose FlexiDreamer, a novel single image-to-3d generation
framework that reconstructs the target mesh in an end-to-end manner. By
leveraging a flexible gradient-based extraction known as FlexiCubes, our method
circumvents the defects brought by the post-processing and facilitates a direct
acquisition of the target mesh. Furthermore, we incorporate a multi-resolution
hash grid encoding scheme that progressively activates the encoding levels into
the implicit field in FlexiCubes to help capture geometric details for per-step
optimization. Notably, FlexiDreamer recovers a dense 3D structure from a
single-view image in approximately 1 minute on a single NVIDIA A100 GPU,
outperforming previous methodologies by a large margin.Summary
AI-Generated Summary