EmbodiedSplat: オープン語彙の3Dシーン理解のためのオンライン・フィードフォワード意味的3Dガウススプラッティング
EmbodiedSplat: Online Feed-Forward Semantic 3DGS for Open-Vocabulary 3D Scene Understanding
March 4, 2026
著者: Seungjun Lee, Zihan Wang, Yunsong Wang, Gim Hee Lee
cs.AI
要旨
3Dシーンを探索しながら即座に理解することは、エージェントがオンラインかつほぼリアルタイムで3Dシーンを構築・理解しなければならないエンバディッドタスクにおいて不可欠である。本研究では、ストリーミング画像から同時にオンライン3D再構成と3Dセマンティック理解を可能にする、オープン語彙シーン理解のためのオンライン・フィードフォワード3DGS「EmbodiedSplat」を提案する。既存のオープン語彙3DGS手法がオフラインまたはシーン毎最適化設定に制限されるのに対し、我々の目的は二つある:1) 300枚以上のストリーミング画像から、セマンティクスが埋め込まれた3DGSによるシーン全体をオンライン方式で再構成する。2) フィードフォワード設計により新規シーンへの高い一般化性を持ち、リアルタイム2Dモデルと組み合わせることでほぼリアルタイムの3Dセマンティック再構成をサポートする。これらの目的を達成するため、我々はCLIPグローバルコードブックを備えたオンライン疎係数フィールドを提案する。これは2D CLIP埋め込みを各3Dガウシアンに紐付けつつ、メモリ消費を最小化し、CLIPの完全なセマンティック一般化性を保持する。さらに、3DGSの部分点群を3D U-Netで集約することで3D幾何学的に認識されたCLIP特徴を生成し、2D指向の言語埋め込みに対して3D幾何学的事前情報を補償する。ScanNet、ScanNet++、Replicaを含む多様な室内データセットでの大規模実験により、本手法の有効性と効率性の両方が実証された。プロジェクトページはhttps://0nandon.github.io/EmbodiedSplat/ を参照。
English
Understanding a 3D scene immediately with its exploration is essential for embodied tasks, where an agent must construct and comprehend the 3D scene in an online and nearly real-time manner. In this study, we propose EmbodiedSplat, an online feed-forward 3DGS for open-vocabulary scene understanding that enables simultaneous online 3D reconstruction and 3D semantic understanding from the streaming images. Unlike existing open-vocabulary 3DGS methods which are typically restricted to either offline or per-scene optimization setting, our objectives are two-fold: 1) Reconstructs the semantic-embedded 3DGS of the entire scene from over 300 streaming images in an online manner. 2) Highly generalizable to novel scenes with feed-forward design and supports nearly real-time 3D semantic reconstruction when combined with real-time 2D models. To achieve these objectives, we propose an Online Sparse Coefficients Field with a CLIP Global Codebook where it binds the 2D CLIP embeddings to each 3D Gaussian while minimizing memory consumption and preserving the full semantic generalizability of CLIP. Furthermore, we generate 3D geometric-aware CLIP features by aggregating the partial point cloud of 3DGS through 3D U-Net to compensate the 3D geometric prior to 2D-oriented language embeddings. Extensive experiments on diverse indoor datasets, including ScanNet, ScanNet++, and Replica, demonstrate both the effectiveness and efficiency of our method. Check out our project page in https://0nandon.github.io/EmbodiedSplat/.