GlobalSplat : Projection efficace de Gaussiennes 3D en propagation directe via des tokens globaux de scène

Résumé

L'allocation spatiale efficace des primitives constitue le fondement du 3D Gaussian Splatting, car elle dicte directement la synergie entre la compacité de la représentation, la vitesse de reconstruction et la fidélité du rendu. Les solutions antérieures, qu'elles soient basées sur une optimisation itérative ou une inférence directe, souffrent de compromis significatifs entre ces objectifs, principalement en raison de leur dépendance à des stratégies d'allocation locales, pilotées par des heuristiques, qui manquent d'une compréhension globale de la scène. Plus précisément, les méthodes directes actuelles sont largement alignées sur les pixels ou les voxels. En projetant les pixels en des primitives denses alignées sur la vue, elles incorporent de la redondance dans l'actif 3D. À mesure que davantage de vues d'entrée sont ajoutées, la taille de la représentation augmente et la cohérence globale devient fragile. Pour cela, nous présentons GlobalSplat, un cadre construit sur le principe d'« aligner d'abord, décoder ensuite ». Notre approche apprend une représentation de scène latente compacte et globale qui encode les entrées multi-vues et résout les correspondances inter-vues avant de décoder toute géométrie 3D explicite. De manière cruciale, cette formulation permet des reconstructions compactes et globalement cohérentes sans s'appuyer sur des modèles de base pré-entraînés pour la prédiction de pixels ou sur la réutilisation de caractéristiques latentes provenant de bases de référence denses. En utilisant un programme d'apprentissage allant du grossier au fin qui augmente progressivement la capacité décodée, GlobalSplat prévient naturellement le gonflement de la représentation. Sur RealEstate10K et ACID, notre modèle atteint des performances compétitives en synthèse de nouvelles vues tout en utilisant seulement 16 000 Gaussiennes, soit bien moins que ce que nécessitent les pipelines denses, pour une empreinte légère de 4 Mo. De plus, GlobalSplat permet une inférence nettement plus rapide que les bases de référence, fonctionnant en moins de 78 millisecondes en une seule passe avant. La page du projet est disponible à l'adresse https://r-itk.github.io/globalsplat/

English

The efficient spatial allocation of primitives serves as the foundation of 3D Gaussian Splatting, as it directly dictates the synergy between representation compactness, reconstruction speed, and rendering fidelity. Previous solutions, whether based on iterative optimization or feed-forward inference, suffer from significant trade-offs between these goals, mainly due to the reliance on local, heuristic-driven allocation strategies that lack global scene awareness. Specifically, current feed-forward methods are largely pixel-aligned or voxel-aligned. By unprojecting pixels into dense, view-aligned primitives, they bake redundancy into the 3D asset. As more input views are added, the representation size increases and global consistency becomes fragile. To this end, we introduce GlobalSplat, a framework built on the principle of align first, decode later. Our approach learns a compact, global, latent scene representation that encodes multi-view input and resolves cross-view correspondences before decoding any explicit 3D geometry. Crucially, this formulation enables compact, globally consistent reconstructions without relying on pretrained pixel-prediction backbones or reusing latent features from dense baselines. Utilizing a coarse-to-fine training curriculum that gradually increases decoded capacity, GlobalSplat natively prevents representation bloat. On RealEstate10K and ACID, our model achieves competitive novel-view synthesis performance while utilizing as few as 16K Gaussians, significantly less than required by dense pipelines, obtaining a light 4MB footprint. Further, GlobalSplat enables significantly faster inference than the baselines, operating under 78 milliseconds in a single forward pass. Project page is available at https://r-itk.github.io/globalsplat/

GlobalSplat : Projection efficace de Gaussiennes 3D en propagation directe via des tokens globaux de scène

GlobalSplat: Efficient Feed-Forward 3D Gaussian Splatting via Global Scene Tokens

Résumé

Support