Gamba: Unire Gaussian Splatting e Mamba per la ricostruzione 3D da singola vista
Gamba: Marry Gaussian Splatting with Mamba for single view 3D reconstruction
March 27, 2024
Autori: Qiuhong Shen, Xuanyu Yi, Zike Wu, Pan Zhou, Hanwang Zhang, Shuicheng Yan, Xinchao Wang
cs.AI
Abstract
Affrontiamo la sfida di ricostruire in modo efficiente un asset 3D da una singola immagine, in risposta alle crescenti richieste per pipeline automatizzate di creazione di contenuti 3D. I metodi precedenti si basano principalmente su Score Distillation Sampling (SDS) e Neural Radiance Fields (NeRF). Nonostante il loro significativo successo, questi approcci incontrano limitazioni pratiche dovute a lunghi tempi di ottimizzazione e un considerevole utilizzo di memoria. In questo rapporto, presentiamo Gamba, un modello di ricostruzione 3D ammortizzato end-to-end da immagini a singola vista, che enfatizza due principali intuizioni: (1) Rappresentazione 3D: sfruttare un gran numero di Gaussiane 3D per un efficiente processo di splatting Gaussiano 3D; (2) Progettazione del backbone: introdurre una rete sequenziale basata su Mamba che facilita il ragionamento dipendente dal contesto e la scalabilità lineare con la lunghezza della sequenza (token), consentendo l'utilizzo di un numero sostanziale di Gaussiane. Gamba incorpora significativi progressi nella pre-elaborazione dei dati, nella progettazione della regolarizzazione e nelle metodologie di addestramento. Abbiamo valutato Gamba rispetto agli approcci esistenti di generazione 3D basati su ottimizzazione e feed-forward utilizzando il dataset OmniObject3D scansionato nel mondo reale. Qui, Gamba dimostra capacità competitive di generazione, sia qualitativamente che quantitativamente, raggiungendo una velocità notevole, circa 0,6 secondi su una singola GPU NVIDIA A100.
English
We tackle the challenge of efficiently reconstructing a 3D asset from a
single image with growing demands for automated 3D content creation pipelines.
Previous methods primarily rely on Score Distillation Sampling (SDS) and Neural
Radiance Fields (NeRF). Despite their significant success, these approaches
encounter practical limitations due to lengthy optimization and considerable
memory usage. In this report, we introduce Gamba, an end-to-end amortized 3D
reconstruction model from single-view images, emphasizing two main insights:
(1) 3D representation: leveraging a large number of 3D Gaussians for an
efficient 3D Gaussian splatting process; (2) Backbone design: introducing a
Mamba-based sequential network that facilitates context-dependent reasoning and
linear scalability with the sequence (token) length, accommodating a
substantial number of Gaussians. Gamba incorporates significant advancements in
data preprocessing, regularization design, and training methodologies. We
assessed Gamba against existing optimization-based and feed-forward 3D
generation approaches using the real-world scanned OmniObject3D dataset. Here,
Gamba demonstrates competitive generation capabilities, both qualitatively and
quantitatively, while achieving remarkable speed, approximately 0.6 second on a
single NVIDIA A100 GPU.