ChatPaper.aiChatPaper

Gamba : Unir le Gaussian Splatting et Mamba pour la reconstruction 3D à partir d'une seule vue

Gamba: Marry Gaussian Splatting with Mamba for single view 3D reconstruction

March 27, 2024
Auteurs: Qiuhong Shen, Xuanyu Yi, Zike Wu, Pan Zhou, Hanwang Zhang, Shuicheng Yan, Xinchao Wang
cs.AI

Résumé

Nous abordons le défi de la reconstruction efficace d'un objet 3D à partir d'une seule image, face à la demande croissante de pipelines automatisés de création de contenu 3D. Les méthodes précédentes reposent principalement sur le Score Distillation Sampling (SDS) et les Champs de Radiance Neuronaux (NeRF). Malgré leur succès significatif, ces approches rencontrent des limitations pratiques dues à une optimisation longue et à une utilisation considérable de la mémoire. Dans ce rapport, nous présentons Gamba, un modèle de reconstruction 3D amorti de bout en bout à partir d'images à vue unique, mettant en avant deux idées principales : (1) Représentation 3D : l'utilisation d'un grand nombre de Gaussiennes 3D pour un processus de splatting Gaussien 3D efficace ; (2) Conception du backbone : l'introduction d'un réseau séquentiel basé sur Mamba qui facilite le raisonnement contextuel et une scalabilité linéaire avec la longueur de la séquence (token), permettant d'accommoder un nombre substantiel de Gaussiennes. Gamba intègre des avancées significatives dans le prétraitement des données, la conception de la régularisation et les méthodologies d'entraînement. Nous avons évalué Gamba par rapport aux approches existantes de génération 3D basées sur l'optimisation et le feed-forward en utilisant le jeu de données OmniObject3D scanné en conditions réelles. Ici, Gamba démontre des capacités de génération compétitives, à la fois qualitativement et quantitativement, tout en atteignant une vitesse remarquable, environ 0,6 seconde sur une seule GPU NVIDIA A100.
English
We tackle the challenge of efficiently reconstructing a 3D asset from a single image with growing demands for automated 3D content creation pipelines. Previous methods primarily rely on Score Distillation Sampling (SDS) and Neural Radiance Fields (NeRF). Despite their significant success, these approaches encounter practical limitations due to lengthy optimization and considerable memory usage. In this report, we introduce Gamba, an end-to-end amortized 3D reconstruction model from single-view images, emphasizing two main insights: (1) 3D representation: leveraging a large number of 3D Gaussians for an efficient 3D Gaussian splatting process; (2) Backbone design: introducing a Mamba-based sequential network that facilitates context-dependent reasoning and linear scalability with the sequence (token) length, accommodating a substantial number of Gaussians. Gamba incorporates significant advancements in data preprocessing, regularization design, and training methodologies. We assessed Gamba against existing optimization-based and feed-forward 3D generation approaches using the real-world scanned OmniObject3D dataset. Here, Gamba demonstrates competitive generation capabilities, both qualitatively and quantitatively, while achieving remarkable speed, approximately 0.6 second on a single NVIDIA A100 GPU.

Summary

AI-Generated Summary

PDF212December 15, 2024