EmbodiedSplat: Online Feed-Forward Semantischer 3DGS für Open-Vocabulary 3D-Szenenverständnis
EmbodiedSplat: Online Feed-Forward Semantic 3DGS for Open-Vocabulary 3D Scene Understanding
March 4, 2026
Autoren: Seungjun Lee, Zihan Wang, Yunsong Wang, Gim Hee Lee
cs.AI
Zusammenfassung
Das unmittelbare Verständnis einer 3D-Szene während ihrer Erkundung ist entscheidend für verkörperte Aufgaben, bei denen ein Agent die 3D-Szene online und nahezu in Echtzeit konstruieren und verstehen muss. In dieser Studie stellen wir EmbodiedSplat vor, ein online-feedforward 3DGS-System für open-vocabulary-Szenenverständnis, das gleichzeitige Online-3D-Rekonstruktion und semantisches 3D-Verständnis aus Streaming-Bildern ermöglicht. Im Gegensatz zu bestehenden open-vocabulary-3DGS-Methoden, die typischerweise auf Offline- oder pro-Szene-Optimierung beschränkt sind, verfolgen wir zwei Ziele: 1) Online-Rekonstruktion des semantisch eingebetteten 3DGS der gesamten Szene aus über 300 Streaming-Bildern. 2) Hohe Generalisierbarkeit auf neue Szenen durch Feedforward-Design und Unterstützung nahezu Echtzeit-fähiger 3D-Semantikrekonstruktion in Kombination mit Echtzeit-2D-Modellen. Um diese Ziele zu erreichen, schlagen wir ein Online Sparse Coefficients Field mit einem CLIP Global Codebook vor, das die 2D-CLIP-Einbettungen an jedes 3D-Gaussian bindet, dabei den Speicherverbrauch minimiert und die volle semantische Generalisierbarkeit von CLIP bewahrt. Darüber hinaus generieren wir 3D-geometrieaware CLIP-Features durch Aggregation der Punktwolkenanteile des 3DGS mittels 3D-U-Net, um den 2D-orientierten Spracheinbettungen eine 3D-geometrische Priorität zu verleihen. Umfangreiche Experimente auf diversen Indoor-Datensätzen, einschließlich ScanNet, ScanNet++ und Replica, demonstrieren sowohl die Effektivität als auch die Effizienz unserer Methode. Weitere Informationen finden Sie auf unserer Projektseite: https://0nandon.github.io/EmbodiedSplat/.
English
Understanding a 3D scene immediately with its exploration is essential for embodied tasks, where an agent must construct and comprehend the 3D scene in an online and nearly real-time manner. In this study, we propose EmbodiedSplat, an online feed-forward 3DGS for open-vocabulary scene understanding that enables simultaneous online 3D reconstruction and 3D semantic understanding from the streaming images. Unlike existing open-vocabulary 3DGS methods which are typically restricted to either offline or per-scene optimization setting, our objectives are two-fold: 1) Reconstructs the semantic-embedded 3DGS of the entire scene from over 300 streaming images in an online manner. 2) Highly generalizable to novel scenes with feed-forward design and supports nearly real-time 3D semantic reconstruction when combined with real-time 2D models. To achieve these objectives, we propose an Online Sparse Coefficients Field with a CLIP Global Codebook where it binds the 2D CLIP embeddings to each 3D Gaussian while minimizing memory consumption and preserving the full semantic generalizability of CLIP. Furthermore, we generate 3D geometric-aware CLIP features by aggregating the partial point cloud of 3DGS through 3D U-Net to compensate the 3D geometric prior to 2D-oriented language embeddings. Extensive experiments on diverse indoor datasets, including ScanNet, ScanNet++, and Replica, demonstrate both the effectiveness and efficiency of our method. Check out our project page in https://0nandon.github.io/EmbodiedSplat/.