EmbodiedSplat: 개방형 어휘 3D 장면 이해를 위한 온라인 순전파 의미론적 3D 가우시안 스플래팅
EmbodiedSplat: Online Feed-Forward Semantic 3DGS for Open-Vocabulary 3D Scene Understanding
March 4, 2026
저자: Seungjun Lee, Zihan Wang, Yunsong Wang, Gim Hee Lee
cs.AI
초록
3D 장면을 탐색하면서 즉시 이해하는 것은 에이전트가 온라인 및 준 실시간 방식으로 3D 장면을 구성하고 이해해야 하는 구체적 임무(embodied tasks)에 필수적입니다. 본 연구에서는 스트리밍 이미지로부터 동시에 온라인 3D 재구성과 3D 의미론적 이해를 가능하게 하는 개방형 어휘(open-vocabulary) 장면 이해를 위한 온라인 순전파(online feed-forward) 3DGS 방법론인 EmbodiedSplat을 제안합니다. 일반적으로 오프라인 또는 장면별 최적화(per-scene optimization) 설정에 국한된 기존의 개방형 어휘 3DGS 방법론과 달리, 본 연구의 목표는 두 가지입니다: 1) 300개 이상의 스트리밍 이미지로부터 전체 장면의 의미 정보가 내재된(semantic-embedded) 3DGS를 온라인 방식으로 재구성한다. 2) 순전파 설계로 새로운 장면에 대해 높은 일반화 성능을 가지며, 실시간 2D 모델과 결합 시 준 실시간 3D 의미론적 재구성을 지원한다. 이러한 목표를 달성하기 위해, 우리는 메모리 소비를 최소화하면서 CLIP의 완전한 의미론적 일반화 성능을 유지한 상태로 2D CLIP 임베딩을 각 3D 가우시안에 연결하는 CLIP 글로벌 코드북을 갖춘 온라인 희소 계수 필드(Online Sparse Coefficients Field)를 제안합니다. 더 나아가, 3D U-Net을 통해 3DGS의 부분 점군(partial point cloud)을 집계하여 2D 중심 언어 임베딩에 3D 기하학적 사전 정보(geometric prior)를 보완하는 3D 기하학 인식 CLIP 특징을 생성합니다. ScanNet, ScanNet++, Replica를 포함한 다양한 실내 데이터셋에서의 광범위한 실험을 통해 우리 방법의 효과성과 효율성을 입증합니다. 자세한 내용은 우리의 프로젝트 페이지(https://0nandon.github.io/EmbodiedSplat/)에서 확인하세요.
English
Understanding a 3D scene immediately with its exploration is essential for embodied tasks, where an agent must construct and comprehend the 3D scene in an online and nearly real-time manner. In this study, we propose EmbodiedSplat, an online feed-forward 3DGS for open-vocabulary scene understanding that enables simultaneous online 3D reconstruction and 3D semantic understanding from the streaming images. Unlike existing open-vocabulary 3DGS methods which are typically restricted to either offline or per-scene optimization setting, our objectives are two-fold: 1) Reconstructs the semantic-embedded 3DGS of the entire scene from over 300 streaming images in an online manner. 2) Highly generalizable to novel scenes with feed-forward design and supports nearly real-time 3D semantic reconstruction when combined with real-time 2D models. To achieve these objectives, we propose an Online Sparse Coefficients Field with a CLIP Global Codebook where it binds the 2D CLIP embeddings to each 3D Gaussian while minimizing memory consumption and preserving the full semantic generalizability of CLIP. Furthermore, we generate 3D geometric-aware CLIP features by aggregating the partial point cloud of 3DGS through 3D U-Net to compensate the 3D geometric prior to 2D-oriented language embeddings. Extensive experiments on diverse indoor datasets, including ScanNet, ScanNet++, and Replica, demonstrate both the effectiveness and efficiency of our method. Check out our project page in https://0nandon.github.io/EmbodiedSplat/.