GS-LRM: Modello di Ricostruzione su Larga Scala per il Gaussian Splatting 3D
GS-LRM: Large Reconstruction Model for 3D Gaussian Splatting
April 30, 2024
Autori: Kai Zhang, Sai Bi, Hao Tan, Yuanbo Xiangli, Nanxuan Zhao, Kalyan Sunkavalli, Zexiang Xu
cs.AI
Abstract
Proponiamo GS-LRM, un modello scalabile di ricostruzione su larga scala in grado di prevedere primitive 3D di alta qualità basate su Gaussiane da 2-4 immagini sparse con pose nota in 0,23 secondi su una singola GPU A100. Il nostro modello presenta un'architettura basata su transformer molto semplice; suddividiamo le immagini di input con pose nota in patch, passiamo i token delle immagini multi-vista concatenati attraverso una sequenza di blocchi transformer e decodifichiamo direttamente i parametri Gaussiani finali per pixel da questi token per il rendering differenziabile. A differenza dei precedenti LRM che potevano ricostruire solo oggetti, prevedendo Gaussiane per pixel, GS-LRM gestisce naturalmente scene con grandi variazioni di scala e complessità. Mostriamo che il nostro modello può funzionare sia su acquisizioni di oggetti che di scene addestrandolo rispettivamente su Objaverse e RealEstate10K. In entrambi gli scenari, i modelli superano ampiamente i baseline state-of-the-art. Dimostriamo inoltre applicazioni del nostro modello in compiti di generazione 3D downstream. La pagina web del progetto è disponibile all'indirizzo: https://sai-bi.github.io/project/gs-lrm/.
English
We propose GS-LRM, a scalable large reconstruction model that can predict
high-quality 3D Gaussian primitives from 2-4 posed sparse images in 0.23
seconds on single A100 GPU. Our model features a very simple transformer-based
architecture; we patchify input posed images, pass the concatenated multi-view
image tokens through a sequence of transformer blocks, and decode final
per-pixel Gaussian parameters directly from these tokens for differentiable
rendering. In contrast to previous LRMs that can only reconstruct objects, by
predicting per-pixel Gaussians, GS-LRM naturally handles scenes with large
variations in scale and complexity. We show that our model can work on both
object and scene captures by training it on Objaverse and RealEstate10K
respectively. In both scenarios, the models outperform state-of-the-art
baselines by a wide margin. We also demonstrate applications of our model in
downstream 3D generation tasks. Our project webpage is available at:
https://sai-bi.github.io/project/gs-lrm/ .