GS-LRM: Modelo de Grande Escala para Reconstrução em 3D com Gaussian Splatting
GS-LRM: Large Reconstruction Model for 3D Gaussian Splatting
April 30, 2024
Autores: Kai Zhang, Sai Bi, Hao Tan, Yuanbo Xiangli, Nanxuan Zhao, Kalyan Sunkavalli, Zexiang Xu
cs.AI
Resumo
Propomos o GS-LRM, um modelo escalável de reconstrução em larga escala que pode prever primitivas 3D de alta qualidade em Gaussianos a partir de 2-4 imagens esparsas com pose em 0,23 segundos em uma única GPU A100. Nosso modelo apresenta uma arquitetura extremamente simples baseada em transformers; dividimos as imagens de entrada com pose em patches, passamos os tokens de imagem multivista concatenados por uma sequência de blocos transformers e decodificamos os parâmetros Gaussianos finais por pixel diretamente a partir desses tokens para renderização diferenciável. Em contraste com LRMs anteriores que só conseguiam reconstruir objetos, ao prever Gaussianos por pixel, o GS-LRM lida naturalmente com cenas que apresentam grandes variações de escala e complexidade. Mostramos que nosso modelo pode funcionar tanto em capturas de objetos quanto de cenas, treinando-o no Objaverse e no RealEstate10K, respectivamente. Em ambos os cenários, os modelos superam as baselines state-of-the-art por uma ampla margem. Também demonstramos aplicações do nosso modelo em tarefas de geração 3D subsequentes. A página do nosso projeto está disponível em: https://sai-bi.github.io/project/gs-lrm/.
English
We propose GS-LRM, a scalable large reconstruction model that can predict
high-quality 3D Gaussian primitives from 2-4 posed sparse images in 0.23
seconds on single A100 GPU. Our model features a very simple transformer-based
architecture; we patchify input posed images, pass the concatenated multi-view
image tokens through a sequence of transformer blocks, and decode final
per-pixel Gaussian parameters directly from these tokens for differentiable
rendering. In contrast to previous LRMs that can only reconstruct objects, by
predicting per-pixel Gaussians, GS-LRM naturally handles scenes with large
variations in scale and complexity. We show that our model can work on both
object and scene captures by training it on Objaverse and RealEstate10K
respectively. In both scenarios, the models outperform state-of-the-art
baselines by a wide margin. We also demonstrate applications of our model in
downstream 3D generation tasks. Our project webpage is available at:
https://sai-bi.github.io/project/gs-lrm/ .