EmbodiedSplat: Gaussianos Semánticos 3D de Propagación Directa en Tiempo Real para la Comprensión de Escenas 3D con Vocabulario Abierto
EmbodiedSplat: Online Feed-Forward Semantic 3DGS for Open-Vocabulary 3D Scene Understanding
March 4, 2026
Autores: Seungjun Lee, Zihan Wang, Yunsong Wang, Gim Hee Lee
cs.AI
Resumen
Comprender una escena 3D de inmediato durante su exploración es esencial para las tareas embodadas, donde un agente debe construir y comprender la escena 3D de manera online y casi en tiempo real. En este estudio, proponemos EmbodiedSplat, un sistema de splatting gaussiano 3D (3DGS) online de avance directo para la comprensión de escenas de vocabulario abierto que permite la reconstrucción 3D online simultánea y la comprensión semántica 3D a partir de imágenes en flujo continuo. A diferencia de los métodos existentes de 3DGS de vocabulario abierto, que normalmente se restringen a una configuración de optimización offline o por escena, nuestros objetivos son dos: 1) Reconstruir el modelo 3DGS con semántica integrada de la escena completa a partir de más de 300 imágenes en flujo continuo de manera online. 2) Ser altamente generalizable a escenas novedosas con un diseño de avance directo y admitir una reconstrucción semántica 3D casi en tiempo real cuando se combina con modelos 2D en tiempo real. Para lograr estos objetivos, proponemos un Campo de Coeficientes Dispersos Online con un Libro de Códigos Global CLIP, que vincula los *embeddings* CLIP 2D a cada Gaussiana 3D mientras minimiza el consumo de memoria y preserva la total capacidad de generalización semántica de CLIP. Además, generamos características CLIP con conciencia geométrica 3D agregando la nube de puntos parcial del 3DGS a través de una U-Net 3D para compensar la carencia de información geométrica 3D en los *embeddings* lingüísticos orientados a 2D. Experimentos exhaustivos en diversos conjuntos de datos de interiores, incluidos ScanNet, ScanNet++ y Replica, demuestran tanto la efectividad como la eficiencia de nuestro método. Visite nuestra página del proyecto en https://0nandon.github.io/EmbodiedSplat/.
English
Understanding a 3D scene immediately with its exploration is essential for embodied tasks, where an agent must construct and comprehend the 3D scene in an online and nearly real-time manner. In this study, we propose EmbodiedSplat, an online feed-forward 3DGS for open-vocabulary scene understanding that enables simultaneous online 3D reconstruction and 3D semantic understanding from the streaming images. Unlike existing open-vocabulary 3DGS methods which are typically restricted to either offline or per-scene optimization setting, our objectives are two-fold: 1) Reconstructs the semantic-embedded 3DGS of the entire scene from over 300 streaming images in an online manner. 2) Highly generalizable to novel scenes with feed-forward design and supports nearly real-time 3D semantic reconstruction when combined with real-time 2D models. To achieve these objectives, we propose an Online Sparse Coefficients Field with a CLIP Global Codebook where it binds the 2D CLIP embeddings to each 3D Gaussian while minimizing memory consumption and preserving the full semantic generalizability of CLIP. Furthermore, we generate 3D geometric-aware CLIP features by aggregating the partial point cloud of 3DGS through 3D U-Net to compensate the 3D geometric prior to 2D-oriented language embeddings. Extensive experiments on diverse indoor datasets, including ScanNet, ScanNet++, and Replica, demonstrate both the effectiveness and efficiency of our method. Check out our project page in https://0nandon.github.io/EmbodiedSplat/.