Gamba: Unire Gaussian Splatting e Mamba per la ricostruzione 3D da singola vista

Abstract

Affrontiamo la sfida di ricostruire in modo efficiente un asset 3D da una singola immagine, in risposta alle crescenti richieste per pipeline automatizzate di creazione di contenuti 3D. I metodi precedenti si basano principalmente su Score Distillation Sampling (SDS) e Neural Radiance Fields (NeRF). Nonostante il loro significativo successo, questi approcci incontrano limitazioni pratiche dovute a lunghi tempi di ottimizzazione e un considerevole utilizzo di memoria. In questo rapporto, presentiamo Gamba, un modello di ricostruzione 3D ammortizzato end-to-end da immagini a singola vista, che enfatizza due principali intuizioni: (1) Rappresentazione 3D: sfruttare un gran numero di Gaussiane 3D per un efficiente processo di splatting Gaussiano 3D; (2) Progettazione del backbone: introdurre una rete sequenziale basata su Mamba che facilita il ragionamento dipendente dal contesto e la scalabilità lineare con la lunghezza della sequenza (token), consentendo l'utilizzo di un numero sostanziale di Gaussiane. Gamba incorpora significativi progressi nella pre-elaborazione dei dati, nella progettazione della regolarizzazione e nelle metodologie di addestramento. Abbiamo valutato Gamba rispetto agli approcci esistenti di generazione 3D basati su ottimizzazione e feed-forward utilizzando il dataset OmniObject3D scansionato nel mondo reale. Qui, Gamba dimostra capacità competitive di generazione, sia qualitativamente che quantitativamente, raggiungendo una velocità notevole, circa 0,6 secondi su una singola GPU NVIDIA A100.

English

We tackle the challenge of efficiently reconstructing a 3D asset from a single image with growing demands for automated 3D content creation pipelines. Previous methods primarily rely on Score Distillation Sampling (SDS) and Neural Radiance Fields (NeRF). Despite their significant success, these approaches encounter practical limitations due to lengthy optimization and considerable memory usage. In this report, we introduce Gamba, an end-to-end amortized 3D reconstruction model from single-view images, emphasizing two main insights: (1) 3D representation: leveraging a large number of 3D Gaussians for an efficient 3D Gaussian splatting process; (2) Backbone design: introducing a Mamba-based sequential network that facilitates context-dependent reasoning and linear scalability with the sequence (token) length, accommodating a substantial number of Gaussians. Gamba incorporates significant advancements in data preprocessing, regularization design, and training methodologies. We assessed Gamba against existing optimization-based and feed-forward 3D generation approaches using the real-world scanned OmniObject3D dataset. Here, Gamba demonstrates competitive generation capabilities, both qualitatively and quantitatively, while achieving remarkable speed, approximately 0.6 second on a single NVIDIA A100 GPU.

Gamba: Unire Gaussian Splatting e Mamba per la ricostruzione 3D da singola vista

Gamba: Marry Gaussian Splatting with Mamba for single view 3D reconstruction

Abstract

Support