Gamba: Uniendo Gaussian Splatting con Mamba para la reconstrucción 3D a partir de una sola vista
Gamba: Marry Gaussian Splatting with Mamba for single view 3D reconstruction
March 27, 2024
Autores: Qiuhong Shen, Xuanyu Yi, Zike Wu, Pan Zhou, Hanwang Zhang, Shuicheng Yan, Xinchao Wang
cs.AI
Resumen
Abordamos el desafío de reconstruir eficientemente un activo 3D a partir de una sola imagen, ante la creciente demanda de pipelines automatizados para la creación de contenido 3D. Los métodos anteriores se basan principalmente en Score Distillation Sampling (SDS) y Neural Radiance Fields (NeRF). A pesar de su éxito significativo, estos enfoques enfrentan limitaciones prácticas debido a la optimización prolongada y al uso considerable de memoria. En este informe, presentamos Gamba, un modelo de reconstrucción 3D amortizado de extremo a extremo a partir de imágenes de vista única, destacando dos ideas principales: (1) Representación 3D: aprovechar un gran número de Gaussianas 3D para un proceso eficiente de splatting con Gaussianas 3D; (2) Diseño de la arquitectura: introducir una red secuencial basada en Mamba que facilita el razonamiento dependiente del contexto y la escalabilidad lineal con la longitud de la secuencia (tokens), permitiendo manejar un número sustancial de Gaussianas. Gamba incorpora avances significativos en el preprocesamiento de datos, diseño de regularización y metodologías de entrenamiento. Evaluamos Gamba frente a enfoques existentes de generación 3D basados en optimización y de avance directo utilizando el conjunto de datos OmniObject3D escaneado del mundo real. Aquí, Gamba demuestra capacidades de generación competitivas, tanto cualitativa como cuantitativamente, mientras logra una velocidad notable, aproximadamente 0.6 segundos en una sola GPU NVIDIA A100.
English
We tackle the challenge of efficiently reconstructing a 3D asset from a
single image with growing demands for automated 3D content creation pipelines.
Previous methods primarily rely on Score Distillation Sampling (SDS) and Neural
Radiance Fields (NeRF). Despite their significant success, these approaches
encounter practical limitations due to lengthy optimization and considerable
memory usage. In this report, we introduce Gamba, an end-to-end amortized 3D
reconstruction model from single-view images, emphasizing two main insights:
(1) 3D representation: leveraging a large number of 3D Gaussians for an
efficient 3D Gaussian splatting process; (2) Backbone design: introducing a
Mamba-based sequential network that facilitates context-dependent reasoning and
linear scalability with the sequence (token) length, accommodating a
substantial number of Gaussians. Gamba incorporates significant advancements in
data preprocessing, regularization design, and training methodologies. We
assessed Gamba against existing optimization-based and feed-forward 3D
generation approaches using the real-world scanned OmniObject3D dataset. Here,
Gamba demonstrates competitive generation capabilities, both qualitatively and
quantitatively, while achieving remarkable speed, approximately 0.6 second on a
single NVIDIA A100 GPU.Summary
AI-Generated Summary