GlobalSplat: 전역 장면 토큰을 통한 효율적인 순전파 3D 가우시안 스플랫팅
GlobalSplat: Efficient Feed-Forward 3D Gaussian Splatting via Global Scene Tokens
April 16, 2026
저자: Roni Itkin, Noam Issachar, Yehonatan Keypur, Yehonatan Keypur, Anpei Chen, Sagie Benaim
cs.AI
초록
프리미티브의 효율적인 공간 할당은 표현의 간결성, 재구성 속도, 렌더링 정밀도 간의 시너지를 직접적으로 결정하므로 3D 가우시안 스플래팅의 기초를 이룹니다. 기존 솔루션들은 반복적 최적화에 기반하든 순전파 추론에 기반하든, 전역적인 장면 인식을 결여한 지역적 휴리스틱 기반 할당 전략에 의존함으로써 이러한 목표들 사이에서 상당한 트레이드오프를 겪어왔습니다. 구체적으로, 현재의 순전파 방법들은 대부분 픽셀 정렬 또는 복셀 정렬 방식입니다. 이 방법들은 픽셀을 빽빽한 시점 정렬 프리미티브로 역투영함으로써 3D 자산에 중복성을 내포시킵니다. 더 많은 입력 시점이 추가될수록 표현 크기는 증가하고 전역 일관성은 취약해집니다. 이를 위해 우리는 '먼저 정렬하고, 이후 디코딩한다'는 원칙에 기반한 GlobalSplat 프레임워크를 소개합니다. 우리의 접근법은 명시적인 3D 기하학을 디코딩하기 전에 다중 시점 입력을 인코딩하고 시점 간 correspondence를 해결하는 간결하고 전역적인 잠재 장면 표현을 학습합니다. 중요한 것은, 이러한 구성이 사전 학습된 픽셀 예측 백본에 의존하거나 조밀한 baseline의 잠재 특징을 재사용하지 않으면서도 간결하고 전역적으로 일관된 재구성을 가능하게 한다는 점입니다. 디코딩 용량을 점진적으로 증가시키는 coarse-to-fine 훈련 커리큘럼을 활용함으로써 GlobalSplat은 본질적으로 표현 비대화를 방지합니다. RealEstate10K과 ACID에서 우리 모델은 조밀한 파이프라인이 요구하는 것보다 훨씬 적은 16K 개의 가우시안만을 활용하여 경쟁력 있는 새로운 시점 합성 성능을 달성하며, 가벼운 4MB의 용적을 차지합니다. 더 나아가 GlobalSplat은 baseline들보다 상당히 빠른 추론 속도를 가능하게 하며, 단일 순전파 과정에서 78밀리초 미만으로 동작합니다. 프로젝트 페이지는 https://r-itk.github.io/globalsplat/에서 확인할 수 있습니다.
English
The efficient spatial allocation of primitives serves as the foundation of 3D Gaussian Splatting, as it directly dictates the synergy between representation compactness, reconstruction speed, and rendering fidelity. Previous solutions, whether based on iterative optimization or feed-forward inference, suffer from significant trade-offs between these goals, mainly due to the reliance on local, heuristic-driven allocation strategies that lack global scene awareness. Specifically, current feed-forward methods are largely pixel-aligned or voxel-aligned. By unprojecting pixels into dense, view-aligned primitives, they bake redundancy into the 3D asset. As more input views are added, the representation size increases and global consistency becomes fragile. To this end, we introduce GlobalSplat, a framework built on the principle of align first, decode later. Our approach learns a compact, global, latent scene representation that encodes multi-view input and resolves cross-view correspondences before decoding any explicit 3D geometry. Crucially, this formulation enables compact, globally consistent reconstructions without relying on pretrained pixel-prediction backbones or reusing latent features from dense baselines. Utilizing a coarse-to-fine training curriculum that gradually increases decoded capacity, GlobalSplat natively prevents representation bloat. On RealEstate10K and ACID, our model achieves competitive novel-view synthesis performance while utilizing as few as 16K Gaussians, significantly less than required by dense pipelines, obtaining a light 4MB footprint. Further, GlobalSplat enables significantly faster inference than the baselines, operating under 78 milliseconds in a single forward pass. Project page is available at https://r-itk.github.io/globalsplat/