GlobalSplat: Efficiente Gaussian Splatting 3D in Feed-Forward tramite Token Globali di Scena
GlobalSplat: Efficient Feed-Forward 3D Gaussian Splatting via Global Scene Tokens
April 16, 2026
Autori: Roni Itkin, Noam Issachar, Yehonatan Keypur, Yehonatan Keypur, Anpei Chen, Sagie Benaim
cs.AI
Abstract
L'allocazione spaziale efficiente delle primitive costituisce il fondamento dello 3D Gaussian Splatting, poiché determina direttamente la sinergia tra compattezza della rappresentazione, velocità di ricostruzione e fedeltà di rendering. Le soluzioni precedenti, basate su ottimizzazione iterativa o inferenza feed-forward, presentano significativi compromessi tra questi obiettivi, principalmente a causa della dipendenza da strategie di allocazione locali e guidate da euristiche, che mancano di una consapevolezza globale della scena. Nello specifico, i metodi feed-forward attuali sono in gran parte allineati ai pixel o ai voxel. De-proiettando i pixel in primitive dense e alineate alla vista, essi incorporano ridondanza nell'asset 3D. Man mano che vengono aggiunte più viste di input, la dimensione della rappresentazione aumenta e la coerenza globale diventa fragile. A tal fine, introduciamo GlobalSplat, un framework basato sul principio di *allinea prima, decodifica dopo*. Il nostro approccio apprende una rappresentazione scenica latente compatta e globale, che codifica l'input multi-vista e risolve le corrispondenze tra le viste prima di decodificare qualsiasi geometria 3D esplicita. Fondamentalmente, questa formulazione consente ricostruzioni compatte e globalmente coerenti senza fare affidamento su backbone pre-addestrati per la predizione di pixel o sul riutilizzo di feature latenti da baseline dense. Utilizzando un curriculum di addestramento coarse-to-fine che aumenta gradualmente la capacità decodificata, GlobalSplat previene nativamente il gonfiamento della rappresentazione. Su RealEstate10K e ACID, il nostro modello raggiunge prestazioni competitive nella sintesi di nuove viste utilizzando fino a soli 16K Gaussiane, significativamente meno di quanto richiesto dalle pipeline dense, ottenendo un'impronta leggera di 4MB. Inoltre, GlobalSplat consente un'inferenza significativamente più veloce rispetto alle baseline, operando in meno di 78 millisecondi in un singolo passaggio in avanti. La pagina del progetto è disponibile all'indirizzo https://r-itk.github.io/globalsplat/
English
The efficient spatial allocation of primitives serves as the foundation of 3D Gaussian Splatting, as it directly dictates the synergy between representation compactness, reconstruction speed, and rendering fidelity. Previous solutions, whether based on iterative optimization or feed-forward inference, suffer from significant trade-offs between these goals, mainly due to the reliance on local, heuristic-driven allocation strategies that lack global scene awareness. Specifically, current feed-forward methods are largely pixel-aligned or voxel-aligned. By unprojecting pixels into dense, view-aligned primitives, they bake redundancy into the 3D asset. As more input views are added, the representation size increases and global consistency becomes fragile. To this end, we introduce GlobalSplat, a framework built on the principle of align first, decode later. Our approach learns a compact, global, latent scene representation that encodes multi-view input and resolves cross-view correspondences before decoding any explicit 3D geometry. Crucially, this formulation enables compact, globally consistent reconstructions without relying on pretrained pixel-prediction backbones or reusing latent features from dense baselines. Utilizing a coarse-to-fine training curriculum that gradually increases decoded capacity, GlobalSplat natively prevents representation bloat. On RealEstate10K and ACID, our model achieves competitive novel-view synthesis performance while utilizing as few as 16K Gaussians, significantly less than required by dense pipelines, obtaining a light 4MB footprint. Further, GlobalSplat enables significantly faster inference than the baselines, operating under 78 milliseconds in a single forward pass. Project page is available at https://r-itk.github.io/globalsplat/