EmbodiedSplat: Online Feed-Forward Semantische 3D Gaussische Splatting voor Open-Vocabulair 3D-scènebegrip
EmbodiedSplat: Online Feed-Forward Semantic 3DGS for Open-Vocabulary 3D Scene Understanding
March 4, 2026
Auteurs: Seungjun Lee, Zihan Wang, Yunsong Wang, Gim Hee Lee
cs.AI
Samenvatting
Het direct begrijpen van een 3D-scène tijdens de verkenning ervan is essentieel voor *embodied* taken, waarbij een agent de 3D-scène online en bijna in realtime moet opbouwen en begrijpen. In deze studie stellen we EmbodiedSplat voor, een online *feed-forward* 3DGS voor open-vocabulary scènebegrip, dat gelijktijdige online 3D-reconstructie en 3D-semantisch begrip mogelijk maakt vanuit een stroom van beelden. In tegenstelling tot bestaande open-vocabulary 3DGS-methoden, die typisch beperkt zijn tot een offline of per-scène optimalisatie-instelling, zijn onze doelstellingen tweeledig: 1) Reconstructie van de semantisch ingebedde 3DGS van de volledige scène uit meer dan 300 beelden in een stroom, op een online manier. 2) Hoog generaliseerbaar naar nieuwe scènes dankzij een *feed-forward* ontwerp, en ondersteuning van bijna realtime 3D-semantische reconstructie in combinatie met realtime 2D-modellen. Om deze doelstellingen te bereiken, stellen we een Online Sparse Coefficients Field voor met een CLIP Global Codebook, dat de 2D CLIP-embeddingen koppelt aan elke 3D-Gaussiaan terwijl het geheugengebruik wordt geminimaliseerd en de volledige semantische generaliseerbaarheid van CLIP behouden blijft. Verder genereren we 3D-geometriebewuste CLIP-features door de puntenwolk van de 3DGS te aggregeren via een 3D U-Net, om het ontbrekende 3D-geometrische voorafgaande inzicht aan te vullen voor de op 2D gerichte taal-embeddingen. Uitgebreide experimenten op diverse indoor-datasets, waaronder ScanNet, ScanNet++ en Replica, demonstreren zowel de effectiviteit als de efficiëntie van onze methode. Bekijk onze projectpagina op https://0nandon.github.io/EmbodiedSplat/.
English
Understanding a 3D scene immediately with its exploration is essential for embodied tasks, where an agent must construct and comprehend the 3D scene in an online and nearly real-time manner. In this study, we propose EmbodiedSplat, an online feed-forward 3DGS for open-vocabulary scene understanding that enables simultaneous online 3D reconstruction and 3D semantic understanding from the streaming images. Unlike existing open-vocabulary 3DGS methods which are typically restricted to either offline or per-scene optimization setting, our objectives are two-fold: 1) Reconstructs the semantic-embedded 3DGS of the entire scene from over 300 streaming images in an online manner. 2) Highly generalizable to novel scenes with feed-forward design and supports nearly real-time 3D semantic reconstruction when combined with real-time 2D models. To achieve these objectives, we propose an Online Sparse Coefficients Field with a CLIP Global Codebook where it binds the 2D CLIP embeddings to each 3D Gaussian while minimizing memory consumption and preserving the full semantic generalizability of CLIP. Furthermore, we generate 3D geometric-aware CLIP features by aggregating the partial point cloud of 3DGS through 3D U-Net to compensate the 3D geometric prior to 2D-oriented language embeddings. Extensive experiments on diverse indoor datasets, including ScanNet, ScanNet++, and Replica, demonstrate both the effectiveness and efficiency of our method. Check out our project page in https://0nandon.github.io/EmbodiedSplat/.