GlobalSplat: Eficiente Proyección de Gaussianos 3D de Propagación Directa mediante Tokens Globales de Escena

Resumen

La asignación espacial eficiente de primitivas constituye la base del Gaussian Splatting 3D, ya que determina directamente la sinergia entre la compacidad de la representación, la velocidad de reconstrucción y la fidelidad del renderizado. Las soluciones anteriores, ya sean basadas en optimización iterativa o inferencia directa, adolecen de compensaciones significativas entre estos objetivos, principalmente debido a la dependencia de estrategias de asignación locales y heurísticas que carecen de una comprensión global de la escena. Específicamente, los métodos de inferencia directa actuales están mayormente alineados a píxeles o vóxeles. Al desproyectar píxeles en primitivas densas y alineadas a la vista, incorporan redundancia en el activo 3D. A medida que se añaden más vistas de entrada, el tamaño de la representación aumenta y la coherencia global se vuelve frágil. Para abordar esto, presentamos GlobalSplat, un marco basado en el principio de *alinear primero, decodificar después*. Nuestro enfoque aprende una representación latente de la escena compacta y global que codifica la entrada multivista y resuelve las correspondencias entre vistas antes de decodificar cualquier geometría 3D explícita. Crucialmente, esta formulación permite reconstrucciones compactas y globalmente coherentes sin depender de *backbones* preentrenados para predicción de píxeles ni de la reutilización de características latentes de líneas base densas. Utilizando un currículum de entrenamiento de grueso a fino que incrementa gradualmente la capacidad decodificada, GlobalSplat previene nativamente la inflación de la representación. En RealEstate10K y ACID, nuestro modelo logra un rendimiento competitivo en síntesis de vistas nuevas utilizando tan solo 16.000 Gaussianos, significativamente menos que lo requerido por los métodos densos, logrando una huella ligera de 4MB. Además, GlobalSplat permite una inferencia significativamente más rápida que las líneas base, operando en menos de 78 milisegundos en una única pasada hacia adelante. La página del proyecto está disponible en https://r-itk.github.io/globalsplat/.

English

The efficient spatial allocation of primitives serves as the foundation of 3D Gaussian Splatting, as it directly dictates the synergy between representation compactness, reconstruction speed, and rendering fidelity. Previous solutions, whether based on iterative optimization or feed-forward inference, suffer from significant trade-offs between these goals, mainly due to the reliance on local, heuristic-driven allocation strategies that lack global scene awareness. Specifically, current feed-forward methods are largely pixel-aligned or voxel-aligned. By unprojecting pixels into dense, view-aligned primitives, they bake redundancy into the 3D asset. As more input views are added, the representation size increases and global consistency becomes fragile. To this end, we introduce GlobalSplat, a framework built on the principle of align first, decode later. Our approach learns a compact, global, latent scene representation that encodes multi-view input and resolves cross-view correspondences before decoding any explicit 3D geometry. Crucially, this formulation enables compact, globally consistent reconstructions without relying on pretrained pixel-prediction backbones or reusing latent features from dense baselines. Utilizing a coarse-to-fine training curriculum that gradually increases decoded capacity, GlobalSplat natively prevents representation bloat. On RealEstate10K and ACID, our model achieves competitive novel-view synthesis performance while utilizing as few as 16K Gaussians, significantly less than required by dense pipelines, obtaining a light 4MB footprint. Further, GlobalSplat enables significantly faster inference than the baselines, operating under 78 milliseconds in a single forward pass. Project page is available at https://r-itk.github.io/globalsplat/

GlobalSplat: Eficiente Proyección de Gaussianos 3D de Propagación Directa mediante Tokens Globales de Escena

GlobalSplat: Efficient Feed-Forward 3D Gaussian Splatting via Global Scene Tokens

Resumen

Support