ChatPaper.aiChatPaper

Gamba: Integrando Gaussian Splatting com Mamba para reconstrução 3D a partir de uma única visão

Gamba: Marry Gaussian Splatting with Mamba for single view 3D reconstruction

March 27, 2024
Autores: Qiuhong Shen, Xuanyu Yi, Zike Wu, Pan Zhou, Hanwang Zhang, Shuicheng Yan, Xinchao Wang
cs.AI

Resumo

Enfrentamos o desafio de reconstruir eficientemente um ativo 3D a partir de uma única imagem, diante das crescentes demandas por pipelines automatizados de criação de conteúdo 3D. Métodos anteriores dependem principalmente de Amostragem por Distilação de Pontuação (SDS) e Campos de Radiação Neural (NeRF). Apesar de seu sucesso significativo, essas abordagens enfrentam limitações práticas devido à otimização demorada e ao uso considerável de memória. Neste relatório, apresentamos Gamba, um modelo de reconstrução 3D amortizado de ponta a ponta a partir de imagens de visão única, destacando dois insights principais: (1) Representação 3D: aproveitando um grande número de Gaussianas 3D para um processo eficiente de splatting de Gaussianas 3D; (2) Design da arquitetura: introduzindo uma rede sequencial baseada em Mamba que facilita o raciocínio dependente de contexto e a escalabilidade linear com o comprimento da sequência (tokens), acomodando um número substancial de Gaussianas. Gamba incorpora avanços significativos em pré-processamento de dados, design de regularização e metodologias de treinamento. Avaliamos Gamba em comparação com abordagens existentes de geração 3D baseadas em otimização e feed-forward, utilizando o conjunto de dados OmniObject3D escaneado do mundo real. Aqui, Gamba demonstra capacidades competitivas de geração, tanto qualitativa quanto quantitativamente, enquanto alcança uma velocidade notável, aproximadamente 0,6 segundo em uma única GPU NVIDIA A100.
English
We tackle the challenge of efficiently reconstructing a 3D asset from a single image with growing demands for automated 3D content creation pipelines. Previous methods primarily rely on Score Distillation Sampling (SDS) and Neural Radiance Fields (NeRF). Despite their significant success, these approaches encounter practical limitations due to lengthy optimization and considerable memory usage. In this report, we introduce Gamba, an end-to-end amortized 3D reconstruction model from single-view images, emphasizing two main insights: (1) 3D representation: leveraging a large number of 3D Gaussians for an efficient 3D Gaussian splatting process; (2) Backbone design: introducing a Mamba-based sequential network that facilitates context-dependent reasoning and linear scalability with the sequence (token) length, accommodating a substantial number of Gaussians. Gamba incorporates significant advancements in data preprocessing, regularization design, and training methodologies. We assessed Gamba against existing optimization-based and feed-forward 3D generation approaches using the real-world scanned OmniObject3D dataset. Here, Gamba demonstrates competitive generation capabilities, both qualitatively and quantitatively, while achieving remarkable speed, approximately 0.6 second on a single NVIDIA A100 GPU.
PDF202December 15, 2024