EmbodiedSplat : Semantic 3DGS en flux direct en ligne pour la compréhension de scènes 3D en vocabulaire ouvert
EmbodiedSplat: Online Feed-Forward Semantic 3DGS for Open-Vocabulary 3D Scene Understanding
March 4, 2026
Auteurs: Seungjun Lee, Zihan Wang, Yunsong Wang, Gim Hee Lee
cs.AI
Résumé
Comprendre une scène 3D immédiatement lors de son exploration est essentiel pour les tâches incarnées, où un agent doit construire et appréhender la scène 3D de manière en ligne et quasi-temps réel. Dans cette étude, nous proposons EmbodiedSplat, un système 3DGS (Gaussian Splatting) en ligne à action directe pour la compréhension de scène à vocabulaire ouvert, permettant une reconstruction 3D en ligne simultanée et une compréhension sémantique 3D à partir d'un flux d'images. Contrairement aux méthodes 3DGS à vocabulaire ouvert existantes, généralement limitées à un réglage hors ligne ou par scène, nos objectifs sont doubles : 1) Reconstruire le modèle 3DGS intégrant la sémantique de la scène entière à partir de plus de 300 images en flux continu de manière en ligne. 2) Être hautement généralisable à de nouvelles scènes grâce à une conception à action directe et supporter une reconstruction sémantique 3D quasi-temps réel lorsqu'elle est combinée à des modèles 2D temps réel. Pour atteindre ces objectifs, nous proposons un Champ de Coefficients Faibles en Ligne avec un Codebook Global CLIP, qui lie les embeddings CLIP 2D à chaque Gaussienne 3D tout en minimisant la consommation mémoire et en préservant la pleine généralisabilité sémantique de CLIP. De plus, nous générons des caractéristiques CLIP conscientes de la géométrie 3D en agrégeant le nuage de points partiel du modèle 3DGS via un U-Net 3D, afin de compenser l'absence d'a priori géométrique 3D dans les embeddings linguistiques orientés 2D. Des expériences approfondies sur divers ensembles de données intérieures, notamment ScanNet, ScanNet++ et Replica, démontrent à la fois l'efficacité et l'efficience de notre méthode. Consultez notre page projet sur https://0nandon.github.io/EmbodiedSplat/.
English
Understanding a 3D scene immediately with its exploration is essential for embodied tasks, where an agent must construct and comprehend the 3D scene in an online and nearly real-time manner. In this study, we propose EmbodiedSplat, an online feed-forward 3DGS for open-vocabulary scene understanding that enables simultaneous online 3D reconstruction and 3D semantic understanding from the streaming images. Unlike existing open-vocabulary 3DGS methods which are typically restricted to either offline or per-scene optimization setting, our objectives are two-fold: 1) Reconstructs the semantic-embedded 3DGS of the entire scene from over 300 streaming images in an online manner. 2) Highly generalizable to novel scenes with feed-forward design and supports nearly real-time 3D semantic reconstruction when combined with real-time 2D models. To achieve these objectives, we propose an Online Sparse Coefficients Field with a CLIP Global Codebook where it binds the 2D CLIP embeddings to each 3D Gaussian while minimizing memory consumption and preserving the full semantic generalizability of CLIP. Furthermore, we generate 3D geometric-aware CLIP features by aggregating the partial point cloud of 3DGS through 3D U-Net to compensate the 3D geometric prior to 2D-oriented language embeddings. Extensive experiments on diverse indoor datasets, including ScanNet, ScanNet++, and Replica, demonstrate both the effectiveness and efficiency of our method. Check out our project page in https://0nandon.github.io/EmbodiedSplat/.