ChatPaper.aiChatPaper

GlobalSplat: Efficiënte Forward 3D Gaussische Splatting via Globale Scènetokens

GlobalSplat: Efficient Feed-Forward 3D Gaussian Splatting via Global Scene Tokens

April 16, 2026
Auteurs: Roni Itkin, Noam Issachar, Yehonatan Keypur, Yehonatan Keypur, Anpei Chen, Sagie Benaim
cs.AI

Samenvatting

De efficiënte ruimtelijke allocatie van primitieven vormt de basis van 3D Gaussian Splatting, aangezien deze direct de synergie bepaalt tussen representatiecompactheid, reconstructiesnelheid en weergavenauwkeurigheid. Eerdere oplossingen, of ze nu gebaseerd zijn op iteratieve optimalisatie of voorwaartse inferentie, kampen met aanzienlijke afwegingen tussen deze doelstellingen, voornamelijk door de afhankelijkheid van lokale, heuristiek-gestuurde allocatiestrategieën die geen globaal scènewaardigheidsbesef hebben. Specifiek zijn huidige voorwaartse methoden grotendeels pixel-uitgelijnd of voxel-uitgelijnd. Door pixels terug te projecteren naar dichte, view-uitgelijnde primitieven, bakken ze redundantie in het 3D-model. Naarmate er meer invoerviews worden toegevoegd, neemt de representatiegrootte toe en wordt de globale consistentie broos. Daarom introduceren wij GlobalSplat, een raamwerk gebouwd op het principe van eerst uitlijnen, daarna decoderen. Onze aanpak leert een compacte, globale, latente scènerepresentatie die multi-view invoer codeert en cross-view correspondenties oplost voordat enige expliciete 3D-geometrie wordt gedecodeerd. Cruciaal is dat deze formulering compacte, globaal consistente reconstructies mogelijk maakt zonder te vertrouwen op voorgetrainde pixel-voorspellingsbackbones of het hergebruiken van latente kenmerken uit dichte basislijnen. Door gebruik te maken van een coarse-to-fine trainingscurriculum dat de gedecodeerde capaciteit geleidelijk verhoogt, voorkomt GlobalSplat van nature representatie-inflatie. Op RealEstate10K en ACID behaalt ons model competitieve nieuwe-view-syntheseprestaties terwijl het slechts 16K Gaussians gebruikt, aanzienlijk minder dan vereist door dichte pijplijnen, met een lichtgewicht footprint van 4MB. Verder stelt GlobalSplat een aanzienlijk snellere inferentie mogelijk dan de basislijnen, werkend in minder dan 78 milliseconden in een enkele voorwaartse passage. Projectpagina beschikbaar op https://r-itk.github.io/globalsplat/
English
The efficient spatial allocation of primitives serves as the foundation of 3D Gaussian Splatting, as it directly dictates the synergy between representation compactness, reconstruction speed, and rendering fidelity. Previous solutions, whether based on iterative optimization or feed-forward inference, suffer from significant trade-offs between these goals, mainly due to the reliance on local, heuristic-driven allocation strategies that lack global scene awareness. Specifically, current feed-forward methods are largely pixel-aligned or voxel-aligned. By unprojecting pixels into dense, view-aligned primitives, they bake redundancy into the 3D asset. As more input views are added, the representation size increases and global consistency becomes fragile. To this end, we introduce GlobalSplat, a framework built on the principle of align first, decode later. Our approach learns a compact, global, latent scene representation that encodes multi-view input and resolves cross-view correspondences before decoding any explicit 3D geometry. Crucially, this formulation enables compact, globally consistent reconstructions without relying on pretrained pixel-prediction backbones or reusing latent features from dense baselines. Utilizing a coarse-to-fine training curriculum that gradually increases decoded capacity, GlobalSplat natively prevents representation bloat. On RealEstate10K and ACID, our model achieves competitive novel-view synthesis performance while utilizing as few as 16K Gaussians, significantly less than required by dense pipelines, obtaining a light 4MB footprint. Further, GlobalSplat enables significantly faster inference than the baselines, operating under 78 milliseconds in a single forward pass. Project page is available at https://r-itk.github.io/globalsplat/
PDF173April 18, 2026