ChatPaper.aiChatPaper

GS-LRM: Modello di Ricostruzione su Larga Scala per il Gaussian Splatting 3D

GS-LRM: Large Reconstruction Model for 3D Gaussian Splatting

April 30, 2024
Autori: Kai Zhang, Sai Bi, Hao Tan, Yuanbo Xiangli, Nanxuan Zhao, Kalyan Sunkavalli, Zexiang Xu
cs.AI

Abstract

Proponiamo GS-LRM, un modello scalabile di ricostruzione su larga scala in grado di prevedere primitive 3D di alta qualità basate su Gaussiane da 2-4 immagini sparse con pose nota in 0,23 secondi su una singola GPU A100. Il nostro modello presenta un'architettura basata su transformer molto semplice; suddividiamo le immagini di input con pose nota in patch, passiamo i token delle immagini multi-vista concatenati attraverso una sequenza di blocchi transformer e decodifichiamo direttamente i parametri Gaussiani finali per pixel da questi token per il rendering differenziabile. A differenza dei precedenti LRM che potevano ricostruire solo oggetti, prevedendo Gaussiane per pixel, GS-LRM gestisce naturalmente scene con grandi variazioni di scala e complessità. Mostriamo che il nostro modello può funzionare sia su acquisizioni di oggetti che di scene addestrandolo rispettivamente su Objaverse e RealEstate10K. In entrambi gli scenari, i modelli superano ampiamente i baseline state-of-the-art. Dimostriamo inoltre applicazioni del nostro modello in compiti di generazione 3D downstream. La pagina web del progetto è disponibile all'indirizzo: https://sai-bi.github.io/project/gs-lrm/.
English
We propose GS-LRM, a scalable large reconstruction model that can predict high-quality 3D Gaussian primitives from 2-4 posed sparse images in 0.23 seconds on single A100 GPU. Our model features a very simple transformer-based architecture; we patchify input posed images, pass the concatenated multi-view image tokens through a sequence of transformer blocks, and decode final per-pixel Gaussian parameters directly from these tokens for differentiable rendering. In contrast to previous LRMs that can only reconstruct objects, by predicting per-pixel Gaussians, GS-LRM naturally handles scenes with large variations in scale and complexity. We show that our model can work on both object and scene captures by training it on Objaverse and RealEstate10K respectively. In both scenarios, the models outperform state-of-the-art baselines by a wide margin. We also demonstrate applications of our model in downstream 3D generation tasks. Our project webpage is available at: https://sai-bi.github.io/project/gs-lrm/ .
PDF201February 8, 2026