EmbodiedSplat: Gaussiana Semântica 3D de Processamento Direto em Tempo Real para Compreensão de Cenas 3D com Vocabulário Aberto

Resumo

A compreensão imediata de uma cena 3D durante a sua exploração é essencial para tarefas corporificadas, nas quais um agente deve construir e compreender a cena 3D de forma online e quase em tempo real. Neste estudo, propomos o EmbodiedSplat, um sistema de 3DGS (*3D Gaussian Splatting*) *feed-forward* online para compreensão de cena com vocabulário aberto, que permite a reconstrução 3D online simultânea e a compreensão semântica 3D a partir de imagens em *streaming*. Diferentemente dos métodos existentes de 3DGS com vocabulário aberto, que normalmente são restritos a configurações de otimização offline ou por cena, nossos objetivos são duplos: 1) Reconstruir o 3DGS com semântica incorporada de toda a cena a partir de mais de 300 imagens em *streaming* de maneira online. 2) Ser altamente generalizável para novas cenas com um design *feed-forward* e suportar a reconstrução semântica 3D quase em tempo real quando combinado com modelos 2D em tempo real. Para alcançar esses objetivos, propomos um Campo de Coeficientes Esparsos Online com um *Codebook* Global CLIP, que vincula os *embeddings* CLIP 2D a cada Gaussiana 3D, minimizando o consumo de memória e preservando a total capacidade de generalização semântica do CLIP. Além disso, geramos características CLIP com consciência geométrica 3D agregando a nuvem de pontos parcial do 3DGS por meio de uma U-Net 3D, para compensar o conhecimento geométrico 3D anterior aos *embeddings* de linguagem orientados a 2D. Experimentos extensos em diversos conjuntos de dados de ambientes internos, incluindo ScanNet, ScanNet++ e Replica, demonstram a eficácia e a eficiência do nosso método. Confira nossa página do projeto em https://0nandon.github.io/EmbodiedSplat/.

English

Understanding a 3D scene immediately with its exploration is essential for embodied tasks, where an agent must construct and comprehend the 3D scene in an online and nearly real-time manner. In this study, we propose EmbodiedSplat, an online feed-forward 3DGS for open-vocabulary scene understanding that enables simultaneous online 3D reconstruction and 3D semantic understanding from the streaming images. Unlike existing open-vocabulary 3DGS methods which are typically restricted to either offline or per-scene optimization setting, our objectives are two-fold: 1) Reconstructs the semantic-embedded 3DGS of the entire scene from over 300 streaming images in an online manner. 2) Highly generalizable to novel scenes with feed-forward design and supports nearly real-time 3D semantic reconstruction when combined with real-time 2D models. To achieve these objectives, we propose an Online Sparse Coefficients Field with a CLIP Global Codebook where it binds the 2D CLIP embeddings to each 3D Gaussian while minimizing memory consumption and preserving the full semantic generalizability of CLIP. Furthermore, we generate 3D geometric-aware CLIP features by aggregating the partial point cloud of 3DGS through 3D U-Net to compensate the 3D geometric prior to 2D-oriented language embeddings. Extensive experiments on diverse indoor datasets, including ScanNet, ScanNet++, and Replica, demonstrate both the effectiveness and efficiency of our method. Check out our project page in https://0nandon.github.io/EmbodiedSplat/.

EmbodiedSplat: Gaussiana Semântica 3D de Processamento Direto em Tempo Real para Compreensão de Cenas 3D com Vocabulário Aberto

EmbodiedSplat: Online Feed-Forward Semantic 3DGS for Open-Vocabulary 3D Scene Understanding

Resumo

Support