ChatPaper.aiChatPaper

Gamba: 단일 뷰 3D 재구성을 위해 가우시안 스플래팅과 맘바를 결합하다

Gamba: Marry Gaussian Splatting with Mamba for single view 3D reconstruction

March 27, 2024
저자: Qiuhong Shen, Xuanyu Yi, Zike Wu, Pan Zhou, Hanwang Zhang, Shuicheng Yan, Xinchao Wang
cs.AI

초록

우리는 자동화된 3D 콘텐츠 생성 파이프라인에 대한 수요가 증가함에 따라 단일 이미지로부터 3D 자산을 효율적으로 재구성하는 과제를 해결합니다. 기존 방법들은 주로 Score Distillation Sampling(SDS)과 Neural Radiance Fields(NeRF)에 의존해 왔습니다. 이러한 접근법들은 상당한 성공을 거두었지만, 긴 최적화 시간과 상당한 메모리 사용량으로 인해 실용적인 한계에 직면해 있습니다. 본 보고서에서는 단일 뷰 이미지로부터 3D를 재구성하는 종단 간(End-to-End) 분산 모델인 Gamba를 소개하며, 두 가지 주요 통찰을 강조합니다: (1) 3D 표현: 효율적인 3D Gaussian splatting 프로세스를 위해 다수의 3D 가우시안을 활용; (2) 백본 설계: 컨텍스트 의존적 추론과 시퀀스(토큰) 길이에 따른 선형 확장성을 가능하게 하는 Mamba 기반 순차 네트워크를 도입하여 다수의 가우시안을 수용. Gamba는 데이터 전처리, 정규화 설계 및 훈련 방법론에서 상당한 발전을 통합했습니다. 우리는 Gamba를 실제 스캔된 OmniObject3D 데이터셋을 사용하여 기존의 최적화 기반 및 피드포워드 3D 생성 접근법과 비교 평가했습니다. 여기서 Gamba는 질적 및 양적으로 경쟁력 있는 생성 능력을 보여주면서 단일 NVIDIA A100 GPU에서 약 0.6초의 놀라운 속도를 달성했습니다.
English
We tackle the challenge of efficiently reconstructing a 3D asset from a single image with growing demands for automated 3D content creation pipelines. Previous methods primarily rely on Score Distillation Sampling (SDS) and Neural Radiance Fields (NeRF). Despite their significant success, these approaches encounter practical limitations due to lengthy optimization and considerable memory usage. In this report, we introduce Gamba, an end-to-end amortized 3D reconstruction model from single-view images, emphasizing two main insights: (1) 3D representation: leveraging a large number of 3D Gaussians for an efficient 3D Gaussian splatting process; (2) Backbone design: introducing a Mamba-based sequential network that facilitates context-dependent reasoning and linear scalability with the sequence (token) length, accommodating a substantial number of Gaussians. Gamba incorporates significant advancements in data preprocessing, regularization design, and training methodologies. We assessed Gamba against existing optimization-based and feed-forward 3D generation approaches using the real-world scanned OmniObject3D dataset. Here, Gamba demonstrates competitive generation capabilities, both qualitatively and quantitatively, while achieving remarkable speed, approximately 0.6 second on a single NVIDIA A100 GPU.

Summary

AI-Generated Summary

PDF212December 15, 2024