ChatPaper.aiChatPaper

GlobalSplat: Splatting Eficiente de Gaussianos 3D em Feed-Forward por meio de Tokens de Cena Global

GlobalSplat: Efficient Feed-Forward 3D Gaussian Splatting via Global Scene Tokens

April 16, 2026
Autores: Roni Itkin, Noam Issachar, Yehonatan Keypur, Yehonatan Keypur, Anpei Chen, Sagie Benaim
cs.AI

Resumo

A alocação espacial eficiente de primitivas serve como base para o *Splatting* Gaussiano 3D, uma vez que dita diretamente a sinergia entre a compacidade da representação, a velocidade de reconstrução e a fidelidade de renderização. As soluções anteriores, baseadas em otimização iterativa ou inferência *feed-forward*, sofrem com comprometimentos significativos entre estes objetivos, principalmente devido à dependência de estratégias de alocação locais e orientadas por heurísticas que carecem de uma consciência global da cena. Especificamente, os métodos *feed-forward* atuais são largamente alinhados a píxeis ou voxels. Ao desprojectar píxeis em primitivas densas e alinhadas à vista, eles incorporam redundância no ativo 3D. À medida que mais vistas de entrada são adicionadas, o tamanho da representação aumenta e a consistência global torna-se frágil. Para tal, introduzimos o *GlobalSplat*, uma estrutura construída sobre o princípio de *align first, decode later*. A nossa abordagem aprende uma representação de cena latente, global e compacta que codifica a entrada multi-vista e resolve correspondências entre vistas antes de descodificar qualquer geometria 3D explícita. Crucialmente, esta formulação permite reconstruções compactas e globalmente consistentes sem depender de *backbones* de previsão de píxeis pré-treinados ou de reutilizar características latentes de linhas de base densas. Utilizando um currículo de treino do grosso para o fino que aumenta gradualmente a capacidade descodificada, o *GlobalSplat* previne naturalmente o inchaço da representação. No *RealEstate10K* e no *ACID*, o nosso modelo atinge um desempenho competitivo em síntese de novas vistas enquanto utiliza apenas 16K Gaussianas, significativamente menos do que o exigido por *pipelines* densas, obtendo uma pegada ligeira de 4MB. Adicionalmente, o *GlobalSplat* permite uma inferência significativamente mais rápida do que as linhas de base, operando em menos de 78 milissegundos num único *forward pass*. A página do projeto está disponível em https://r-itk.github.io/globalsplat/.
English
The efficient spatial allocation of primitives serves as the foundation of 3D Gaussian Splatting, as it directly dictates the synergy between representation compactness, reconstruction speed, and rendering fidelity. Previous solutions, whether based on iterative optimization or feed-forward inference, suffer from significant trade-offs between these goals, mainly due to the reliance on local, heuristic-driven allocation strategies that lack global scene awareness. Specifically, current feed-forward methods are largely pixel-aligned or voxel-aligned. By unprojecting pixels into dense, view-aligned primitives, they bake redundancy into the 3D asset. As more input views are added, the representation size increases and global consistency becomes fragile. To this end, we introduce GlobalSplat, a framework built on the principle of align first, decode later. Our approach learns a compact, global, latent scene representation that encodes multi-view input and resolves cross-view correspondences before decoding any explicit 3D geometry. Crucially, this formulation enables compact, globally consistent reconstructions without relying on pretrained pixel-prediction backbones or reusing latent features from dense baselines. Utilizing a coarse-to-fine training curriculum that gradually increases decoded capacity, GlobalSplat natively prevents representation bloat. On RealEstate10K and ACID, our model achieves competitive novel-view synthesis performance while utilizing as few as 16K Gaussians, significantly less than required by dense pipelines, obtaining a light 4MB footprint. Further, GlobalSplat enables significantly faster inference than the baselines, operating under 78 milliseconds in a single forward pass. Project page is available at https://r-itk.github.io/globalsplat/
PDF173April 18, 2026