ChatPaper.aiChatPaper

GlobalSplat: グローバルシーントークンによる効率的なフィードフォワード3Dガウススプラッティング

GlobalSplat: Efficient Feed-Forward 3D Gaussian Splatting via Global Scene Tokens

April 16, 2026
著者: Roni Itkin, Noam Issachar, Yehonatan Keypur, Yehonatan Keypur, Anpei Chen, Sagie Benaim
cs.AI

要旨

プリミティブの効率的な空間的割り当ては、3Dガウシアンスプラッティングの基盤をなす。これは、表現のコンパクト性、再構築速度、およびレンダリングの忠実性の間の相乗効果を直接決定するためである。従来の解決策は、反復的最適化ベースであれ順伝播型推論ベースであれ、主に大域的なシーン認識を欠く局所的・ヒューリスティック主導の割り当て戦略に依存しているため、これらの目標間で重大なトレードオフに悩まされてきた。具体的には、現在の順伝播型手法は大部分がピクセル位置合わせまたはボクセル位置合わせである。ピクセルを密なビュー位置合わせのプリミティブに逆投影することで、それらは3Dアセットに冗長性を組み込んでしまう。入力ビューが増えるにつれて、表現サイズは増大し、大域的一貫性は脆くなる。このため、我々は「まず位置合わせ、その後デコード」の原則に基づくフレームワーク、GlobalSplatを提案する。我々の手法は、明示的な3Dジオメトリをデコードする前に、マルチビュー入力を符号化し、ビュー間の対応関係を解決する、コンパクトで大域的な潜在シーン表現を学習する。決定的に、この定式化により、事前学習済みのピクセル予測バックボーンや、密なベースラインからの潜在特徴の再利用に依存することなく、コンパクトで大域的一貫性のある再構築が可能となる。デコード能力を段階的に増加させる段階的訓練カリキュラムを利用することで、GlobalSplatは表現の肥大化を本質的に防止する。RealEstate10KおよびACIDにおいて、本モデルは、密なパイプラインで必要とされる数よりも遥かに少ない、わずか16K個のガウシアンを用いながら、競争力のある新規視点合成性能を達成し、軽量な4MBのフットプリントを実現する。さらに、GlobalSplatはベースラインよりも大幅に高速な推論を可能とし、単一の順伝播で78ミリ秒未満で動作する。プロジェクトページは https://r-itk.github.io/globalsplat/ で利用可能である。
English
The efficient spatial allocation of primitives serves as the foundation of 3D Gaussian Splatting, as it directly dictates the synergy between representation compactness, reconstruction speed, and rendering fidelity. Previous solutions, whether based on iterative optimization or feed-forward inference, suffer from significant trade-offs between these goals, mainly due to the reliance on local, heuristic-driven allocation strategies that lack global scene awareness. Specifically, current feed-forward methods are largely pixel-aligned or voxel-aligned. By unprojecting pixels into dense, view-aligned primitives, they bake redundancy into the 3D asset. As more input views are added, the representation size increases and global consistency becomes fragile. To this end, we introduce GlobalSplat, a framework built on the principle of align first, decode later. Our approach learns a compact, global, latent scene representation that encodes multi-view input and resolves cross-view correspondences before decoding any explicit 3D geometry. Crucially, this formulation enables compact, globally consistent reconstructions without relying on pretrained pixel-prediction backbones or reusing latent features from dense baselines. Utilizing a coarse-to-fine training curriculum that gradually increases decoded capacity, GlobalSplat natively prevents representation bloat. On RealEstate10K and ACID, our model achieves competitive novel-view synthesis performance while utilizing as few as 16K Gaussians, significantly less than required by dense pipelines, obtaining a light 4MB footprint. Further, GlobalSplat enables significantly faster inference than the baselines, operating under 78 milliseconds in a single forward pass. Project page is available at https://r-itk.github.io/globalsplat/
PDF151April 18, 2026