GS-LRM: Modelo de Reconstrucción a Gran Escala para el Renderizado con Esferoides Gaussianos 3D
GS-LRM: Large Reconstruction Model for 3D Gaussian Splatting
April 30, 2024
Autores: Kai Zhang, Sai Bi, Hao Tan, Yuanbo Xiangli, Nanxuan Zhao, Kalyan Sunkavalli, Zexiang Xu
cs.AI
Resumen
Proponemos GS-LRM, un modelo escalable de reconstrucción a gran escala que puede predecir primitivas 3D de alta calidad en Gaussianas a partir de 2-4 imágenes dispersas con pose en 0.23 segundos en una sola GPU A100. Nuestro modelo presenta una arquitectura extremadamente simple basada en transformadores: dividimos en parches las imágenes de entrada con pose, pasamos los tokens de imágenes multivista concatenados a través de una secuencia de bloques de transformadores, y decodificamos directamente los parámetros Gaussianos por píxel finales a partir de estos tokens para un renderizado diferenciable. A diferencia de los LRM anteriores que solo pueden reconstruir objetos, al predecir Gaussianas por píxel, GS-LRM maneja naturalmente escenas con grandes variaciones en escala y complejidad. Mostramos que nuestro modelo puede funcionar tanto en capturas de objetos como de escenas al entrenarlo en Objaverse y RealEstate10K, respectivamente. En ambos escenarios, los modelos superan ampliamente a los baselines de última generación. También demostramos aplicaciones de nuestro modelo en tareas de generación 3D posteriores. Nuestra página web del proyecto está disponible en: https://sai-bi.github.io/project/gs-lrm/.
English
We propose GS-LRM, a scalable large reconstruction model that can predict
high-quality 3D Gaussian primitives from 2-4 posed sparse images in 0.23
seconds on single A100 GPU. Our model features a very simple transformer-based
architecture; we patchify input posed images, pass the concatenated multi-view
image tokens through a sequence of transformer blocks, and decode final
per-pixel Gaussian parameters directly from these tokens for differentiable
rendering. In contrast to previous LRMs that can only reconstruct objects, by
predicting per-pixel Gaussians, GS-LRM naturally handles scenes with large
variations in scale and complexity. We show that our model can work on both
object and scene captures by training it on Objaverse and RealEstate10K
respectively. In both scenarios, the models outperform state-of-the-art
baselines by a wide margin. We also demonstrate applications of our model in
downstream 3D generation tasks. Our project webpage is available at:
https://sai-bi.github.io/project/gs-lrm/ .Summary
AI-Generated Summary