ChatPaper.aiChatPaper

Kombinieren Sie Gaussian Splatting mit Mamba für die 3D-Rekonstruktion aus einer einzigen Ansicht: Gamba

Gamba: Marry Gaussian Splatting with Mamba for single view 3D reconstruction

March 27, 2024
Autoren: Qiuhong Shen, Xuanyu Yi, Zike Wu, Pan Zhou, Hanwang Zhang, Shuicheng Yan, Xinchao Wang
cs.AI

Zusammenfassung

Wir nehmen die Herausforderung an, ein 3D-Objekt effizient aus einem einzigen Bild wiederherzustellen, da die Anforderungen an automatisierte 3D-Inhalts-Erstellungspipelines steigen. Frühere Methoden stützen sich hauptsächlich auf Score-Distillation-Sampling (SDS) und Neuronale Strahlungsfelder (NeRF). Trotz ihres bedeutenden Erfolgs stoßen diese Ansätze auf praktische Einschränkungen aufgrund langer Optimierungszeiten und erheblichem Speicherbedarf. In diesem Bericht stellen wir Gamba vor, ein End-to-End amortisiertes 3D-Rekonstruktionsmodell aus Einzelbildern, das zwei Haupterkenntnisse betont: (1) 3D-Repräsentation: Nutzung einer großen Anzahl von 3D-Gaußschen für einen effizienten 3D-Gaußschen-Splatting-Prozess; (2) Backbone-Design: Einführung eines Mamba-basierten sequenziellen Netzwerks, das kontextabhängiges Denken und lineare Skalierbarkeit mit der Sequenzlänge (Token) erleichtert und eine beträchtliche Anzahl von Gaußschen aufnehmen kann. Gamba integriert bedeutende Fortschritte in der Datenvorbereitung, Regulierungsentwurf und Trainingsmethoden. Wir haben Gamba anhand des realen gescannten OmniObject3D-Datensatzes gegen bestehende optimierungsbasierte und Feed-Forward-3D-Generierungsansätze bewertet. Hier zeigt Gamba wettbewerbsfähige Generierungsfähigkeiten, sowohl qualitativ als auch quantitativ, und erreicht eine bemerkenswerte Geschwindigkeit von ungefähr 0,6 Sekunden auf einer einzelnen NVIDIA A100 GPU.
English
We tackle the challenge of efficiently reconstructing a 3D asset from a single image with growing demands for automated 3D content creation pipelines. Previous methods primarily rely on Score Distillation Sampling (SDS) and Neural Radiance Fields (NeRF). Despite their significant success, these approaches encounter practical limitations due to lengthy optimization and considerable memory usage. In this report, we introduce Gamba, an end-to-end amortized 3D reconstruction model from single-view images, emphasizing two main insights: (1) 3D representation: leveraging a large number of 3D Gaussians for an efficient 3D Gaussian splatting process; (2) Backbone design: introducing a Mamba-based sequential network that facilitates context-dependent reasoning and linear scalability with the sequence (token) length, accommodating a substantial number of Gaussians. Gamba incorporates significant advancements in data preprocessing, regularization design, and training methodologies. We assessed Gamba against existing optimization-based and feed-forward 3D generation approaches using the real-world scanned OmniObject3D dataset. Here, Gamba demonstrates competitive generation capabilities, both qualitatively and quantitatively, while achieving remarkable speed, approximately 0.6 second on a single NVIDIA A100 GPU.

Summary

AI-Generated Summary

PDF212December 15, 2024