FMGS: 전체적인 3D 장면 이해를 위한 파운데이션 모델 임베디드 3D 가우시안 스플래팅
FMGS: Foundation Model Embedded 3D Gaussian Splatting for Holistic 3D Scene Understanding
January 3, 2024
저자: Xingxing Zuo, Pouya Samangouei, Yunwen Zhou, Yan Di, Mingyang Li
cs.AI
초록
실제 세계의 3차원 객체의 기하학적 및 의미론적 특성을 정확하게 인식하는 것은 증강 현실과 로봇 응용 프로그램의 지속적인 발전에 있어 매우 중요합니다. 이를 위해, 우리는 3D 가우시안 스플래팅(GS)에 기반 모델의 시각-언어 임베딩을 통합한 ()를 제안합니다. 이 연구의 주요 기여는 3D 시각-언어 모델을 재구성하고 표현하기 위한 효율적인 방법을 제시하는 것입니다. 이는 이미지 기반 기반 모델에서 생성된 특징 맵을 우리의 3D 모델에서 렌더링된 특징 맵으로 증류함으로써 달성됩니다. 고품질 렌더링과 빠른 학습을 보장하기 위해, 우리는 GS와 다중 해상도 해시 인코딩(MHE)의 강점을 통합한 새로운 장면 표현 방식을 도입했습니다. 또한, 우리의 효과적인 학습 절차는 픽셀 수준의 의미론적 경계를 따라 동일한 의미론적 개체의 렌더링된 특징 거리를 가깝게 만드는 픽셀 정렬 손실을 도입합니다. 우리의 결과는 다양한 다운스트림 작업을 용이하게 하는 놀라운 다중 뷰 의미론적 일관성을 보여주며, 개방형 어휘 기반 객체 탐지에서 최신 방법을 10.2% 앞서는 성능을 보였습니다. 또한, 우리의 방법은 추론 속도가 851배 더 빠릅니다. 이 연구는 시각, 언어, 3D 장면 표현의 교차점을 탐구하며, 통제되지 않은 실제 환경에서의 향상된 장면 이해를 위한 길을 열어줍니다. 논문 승인 시 코드를 공개할 계획입니다.
English
Precisely perceiving the geometric and semantic properties of real-world 3D
objects is crucial for the continued evolution of augmented reality and robotic
applications. To this end, we present (), which
incorporates vision-language embeddings of foundation models into 3D Gaussian
Splatting (GS). The key contribution of this work is an efficient method to
reconstruct and represent 3D vision-language models. This is achieved by
distilling feature maps generated from image-based foundation models into those
rendered from our 3D model. To ensure high-quality rendering and fast training,
we introduce a novel scene representation by integrating strengths from both GS
and multi-resolution hash encodings (MHE). Our effective training procedure
also introduces a pixel alignment loss that makes the rendered feature distance
of same semantic entities close, following the pixel-level semantic boundaries.
Our results demonstrate remarkable multi-view semantic consistency,
facilitating diverse downstream tasks, beating state-of-the-art methods by
10.2 percent on open-vocabulary language-based object detection,
despite that we are 851times faster for inference. This research
explores the intersection of vision, language, and 3D scene representation,
paving the way for enhanced scene understanding in uncontrolled real-world
environments. We plan to release the code upon paper acceptance.