ChatPaper.aiChatPaper

GlobalSplat: Effizientes Feed-Forward 3D Gaussian Splatting mittels globaler Szenen-Tokens

GlobalSplat: Efficient Feed-Forward 3D Gaussian Splatting via Global Scene Tokens

April 16, 2026
Autoren: Roni Itkin, Noam Issachar, Yehonatan Keypur, Yehonatan Keypur, Anpei Chen, Sagie Benaim
cs.AI

Zusammenfassung

Die effiziente räumliche Allokation von Primitiven bildet die Grundlage von 3D Gaussian Splatting, da sie direkt die Synergie zwischen Repräsentationskompaktheit, Rekonstruktionsgeschwindigkeit und Darstellungsqualität bestimmt. Bisherige Lösungen, ob auf iterativer Optimierung oder Vorwärtsinferenz basierend, leiden unter erheblichen Zielkonflikten zwischen diesen Zielen, vor allem aufgrund der Abhängigkeit von lokalen, heuristikgesteuerten Allokationsstrategien, denen ein globales Szenenverständnis fehlt. Insbesondere aktuelle vorwärtsgerichtete Methoden sind weitgehend pixel- oder voxelausgerichtet. Durch die Rückprojektion von Pixeln in dichte, sichtausgerichtete Primitive bauen sie Redundanz in das 3D-Asset ein. Mit zunehmenden Eingabeansichten wächst die Repräsentationsgröße und die globale Konsistenz wird fragil. Daher führen wir GlobalSplat ein, ein Framework, das auf dem Prinzip "zuerst ausrichten, dann decodieren" basiert. Unser Ansatz erlernt eine kompakte, globale, latente Szenenrepräsentation, die multiview Eingaben kodiert und Blickübergreifende Korrespondenzen auflöst, bevor explizite 3D-Geometrie decodiert wird. Entscheidend ist, dass diese Formulierung kompakte, global konsistente Rekonstruktionen ermöglicht, ohne auf vortrainierte Pixelprädiktions-Backbones oder die Wiederverwendung latenter Merkmale aus dichten Basislinien angewiesen zu sein. Durch die Nutzung eines Trainingscurriculums von grob zu fein, das die decodierte Kapazität schrittweise erhöht, verhindert GlobalSplat inhärent Repräsentationsaufblähung. Auf RealEstate10K und ACID erzielt unser Modell eine wettbewerbsfähige Neuansichtssyntheseleistung mit nur 16K Gaußfunktionen, deutlich weniger als von dichten Pipelines benötigt, bei einem geringen Footprint von 4 MB. Weiterhin ermöglicht GlobalSplat eine deutlich schnellere Inferenz als die Basislinien und arbeitet in einem einzigen Vorwärtsdurchlauf in unter 78 Millisekunden. Die Projektseite ist verfügbar unter https://r-itk.github.io/globalsplat/.
English
The efficient spatial allocation of primitives serves as the foundation of 3D Gaussian Splatting, as it directly dictates the synergy between representation compactness, reconstruction speed, and rendering fidelity. Previous solutions, whether based on iterative optimization or feed-forward inference, suffer from significant trade-offs between these goals, mainly due to the reliance on local, heuristic-driven allocation strategies that lack global scene awareness. Specifically, current feed-forward methods are largely pixel-aligned or voxel-aligned. By unprojecting pixels into dense, view-aligned primitives, they bake redundancy into the 3D asset. As more input views are added, the representation size increases and global consistency becomes fragile. To this end, we introduce GlobalSplat, a framework built on the principle of align first, decode later. Our approach learns a compact, global, latent scene representation that encodes multi-view input and resolves cross-view correspondences before decoding any explicit 3D geometry. Crucially, this formulation enables compact, globally consistent reconstructions without relying on pretrained pixel-prediction backbones or reusing latent features from dense baselines. Utilizing a coarse-to-fine training curriculum that gradually increases decoded capacity, GlobalSplat natively prevents representation bloat. On RealEstate10K and ACID, our model achieves competitive novel-view synthesis performance while utilizing as few as 16K Gaussians, significantly less than required by dense pipelines, obtaining a light 4MB footprint. Further, GlobalSplat enables significantly faster inference than the baselines, operating under 78 milliseconds in a single forward pass. Project page is available at https://r-itk.github.io/globalsplat/
PDF151April 18, 2026