Gamba: сочетание метода гауссовского сглаживания с методом Mamba для реконструкции трехмерных объектов по одному изображению
Gamba: Marry Gaussian Splatting with Mamba for single view 3D reconstruction
March 27, 2024
Авторы: Qiuhong Shen, Xuanyu Yi, Zike Wu, Pan Zhou, Hanwang Zhang, Shuicheng Yan, Xinchao Wang
cs.AI
Аннотация
Мы решаем задачу эффективной реконструкции 3D-объекта из одного изображения в условиях растущего спроса на автоматизированные конвейеры создания 3D-контента. Предыдущие методы в основном опирались на методы дистилляции оценок (SDS) и нейронные радиантные поля (NeRF). Несмотря на их значительный успех, эти подходы сталкиваются с практическими ограничениями из-за длительной оптимизации и значительного использования памяти. В данном отчете мы представляем Gamba, модель амортизированной 3D-реконструкции изображений с одного ракурса, с акцентом на два основных принципа: (1) 3D-представление: использование большого количества 3D-гауссиан для эффективного процесса 3D-гауссианского сплетения; (2) Проектирование основы: внедрение последовательной сети на основе Mamba, которая облегчает контекстно-зависимое рассуждение и линейное масштабирование с длиной последовательности (токена), обеспечивая значительное количество гауссиан. Gamba включает значительные усовершенствования в предварительной обработке данных, проектировании регуляризации и методах обучения. Мы оценили Gamba по сравнению с существующими методами оптимизации и прямого распространения 3D-генерации с использованием реального набора данных OmniObject3D. Здесь Gamba демонстрирует конкурентоспособные возможности генерации как качественно, так и количественно, обеспечивая при этом замечательную скорость, примерно 0,6 секунды на одном графическом процессоре NVIDIA A100.
English
We tackle the challenge of efficiently reconstructing a 3D asset from a
single image with growing demands for automated 3D content creation pipelines.
Previous methods primarily rely on Score Distillation Sampling (SDS) and Neural
Radiance Fields (NeRF). Despite their significant success, these approaches
encounter practical limitations due to lengthy optimization and considerable
memory usage. In this report, we introduce Gamba, an end-to-end amortized 3D
reconstruction model from single-view images, emphasizing two main insights:
(1) 3D representation: leveraging a large number of 3D Gaussians for an
efficient 3D Gaussian splatting process; (2) Backbone design: introducing a
Mamba-based sequential network that facilitates context-dependent reasoning and
linear scalability with the sequence (token) length, accommodating a
substantial number of Gaussians. Gamba incorporates significant advancements in
data preprocessing, regularization design, and training methodologies. We
assessed Gamba against existing optimization-based and feed-forward 3D
generation approaches using the real-world scanned OmniObject3D dataset. Here,
Gamba demonstrates competitive generation capabilities, both qualitatively and
quantitatively, while achieving remarkable speed, approximately 0.6 second on a
single NVIDIA A100 GPU.Summary
AI-Generated Summary