ChatPaper.aiChatPaper

FMGS: ホリスティックな3Dシーン理解のための基盤モデル統合型3Dガウススプラッティング

FMGS: Foundation Model Embedded 3D Gaussian Splatting for Holistic 3D Scene Understanding

January 3, 2024
著者: Xingxing Zuo, Pouya Samangouei, Yunwen Zhou, Yan Di, Mingyang Li
cs.AI

要旨

現実世界の3Dオブジェクトの幾何学的および意味的特性を正確に知覚することは、拡張現実(AR)やロボティクスアプリケーションの継続的な進化にとって極めて重要です。この目的のために、我々は3Dガウススプラッティング(GS)に基盤モデルの視覚-言語埋め込みを組み込んだ()を提案します。本研究の主な貢献は、3D視覚-言語モデルを効率的に再構築・表現する手法です。これは、画像ベースの基盤モデルから生成された特徴マップを、我々の3Dモデルからレンダリングされたものに蒸留することで実現されます。高品質なレンダリングと高速な学習を確保するため、GSとマルチレゾリューションハッシュエンコーディング(MHE)の両方の強みを統合した新しいシーン表現を導入します。また、効果的な学習手順として、ピクセルレベルの意味的境界に従って同一の意味的エンティティのレンダリングされた特徴距離を近づけるピクセルアライメント損失を導入します。我々の結果は、驚くべきマルチビュー意味的一貫性を示し、多様な下流タスクを容易にし、オープン語彙に基づく言語ベースの物体検出において最新の手法を10.2%上回り、推論速度が851倍速いことを実証しています。本研究は、視覚、言語、3Dシーン表現の交差点を探求し、制御されていない現実世界環境におけるシーン理解の強化への道を開きます。論文受理後、コードを公開する予定です。
English
Precisely perceiving the geometric and semantic properties of real-world 3D objects is crucial for the continued evolution of augmented reality and robotic applications. To this end, we present (), which incorporates vision-language embeddings of foundation models into 3D Gaussian Splatting (GS). The key contribution of this work is an efficient method to reconstruct and represent 3D vision-language models. This is achieved by distilling feature maps generated from image-based foundation models into those rendered from our 3D model. To ensure high-quality rendering and fast training, we introduce a novel scene representation by integrating strengths from both GS and multi-resolution hash encodings (MHE). Our effective training procedure also introduces a pixel alignment loss that makes the rendered feature distance of same semantic entities close, following the pixel-level semantic boundaries. Our results demonstrate remarkable multi-view semantic consistency, facilitating diverse downstream tasks, beating state-of-the-art methods by 10.2 percent on open-vocabulary language-based object detection, despite that we are 851times faster for inference. This research explores the intersection of vision, language, and 3D scene representation, paving the way for enhanced scene understanding in uncontrolled real-world environments. We plan to release the code upon paper acceptance.
PDF81December 15, 2024