3DGS-DET: Potencialize a Sobreposição Gaussiana 3D com Orientação de Limites e Amostragem Focada em Caixa para Detecção de Objetos 3D
3DGS-DET: Empower 3D Gaussian Splatting with Boundary Guidance and Box-Focused Sampling for 3D Object Detection
October 2, 2024
Autores: Yang Cao, Yuanliang Jv, Dan Xu
cs.AI
Resumo
Os Campos de Radiância Neural (NeRF) são amplamente utilizados para síntese de novas visualizações e foram adaptados para Detecção de Objetos 3D (3DOD), oferecendo uma abordagem promissora para o 3DOD por meio de representação de síntese de visualização. No entanto, o NeRF enfrenta limitações inerentes: (i) capacidade representacional limitada para 3DOD devido à sua natureza implícita e (ii) velocidades de renderização lentas. Recentemente, o Splatting Gaussiano 3D (3DGS) surgiu como uma representação 3D explícita que aborda essas limitações. Inspirado por essas vantagens, este artigo introduz o 3DGS no 3DOD pela primeira vez, identificando dois desafios principais: (i) Distribuição espacial ambígua de blobs gaussianos: o 3DGS depende principalmente da supervisão em nível de pixel 2D, resultando em uma distribuição espacial 3D de blobs gaussianos pouco clara e uma diferenciação fraca entre objetos e fundo, o que prejudica o 3DOD; (ii) Excesso de blobs de fundo: imagens 2D frequentemente incluem numerosos pixels de fundo, resultando em um 3DGS densamente reconstruído com muitos blobs gaussianos ruidosos representando o fundo, afetando negativamente a detecção. Para enfrentar o desafio (i), aproveitamos o fato de que a reconstrução do 3DGS é derivada de imagens 2D e propomos uma solução elegante e eficiente incorporando Orientação de Borda 2D para aprimorar significativamente a distribuição espacial de blobs gaussianos, resultando em uma diferenciação mais clara entre objetos e seus fundos. Para abordar o desafio (ii), propomos uma estratégia de Amostragem Focada em Caixas usando caixas 2D para gerar distribuição de probabilidade de objeto em espaços 3D, permitindo amostragem probabilística eficaz em 3D para reter mais blobs de objeto e reduzir blobs ruidosos de fundo. Beneficiando-se de nossos projetos, nosso 3DGS-DET supera significativamente o método NeRF baseado em SOTA, NeRF-Det, alcançando melhorias de +6,6 no mAP@0,25 e +8,1 no mAP@0,5 para o conjunto de dados ScanNet, e impressionantes +31,5 no mAP@0,25 para o conjunto de dados ARKITScenes.
English
Neural Radiance Fields (NeRF) are widely used for novel-view synthesis and
have been adapted for 3D Object Detection (3DOD), offering a promising approach
to 3DOD through view-synthesis representation. However, NeRF faces inherent
limitations: (i) limited representational capacity for 3DOD due to its implicit
nature, and (ii) slow rendering speeds. Recently, 3D Gaussian Splatting (3DGS)
has emerged as an explicit 3D representation that addresses these limitations.
Inspired by these advantages, this paper introduces 3DGS into 3DOD for the
first time, identifying two main challenges: (i) Ambiguous spatial distribution
of Gaussian blobs: 3DGS primarily relies on 2D pixel-level supervision,
resulting in unclear 3D spatial distribution of Gaussian blobs and poor
differentiation between objects and background, which hinders 3DOD; (ii)
Excessive background blobs: 2D images often include numerous background pixels,
leading to densely reconstructed 3DGS with many noisy Gaussian blobs
representing the background, negatively affecting detection. To tackle the
challenge (i), we leverage the fact that 3DGS reconstruction is derived from 2D
images, and propose an elegant and efficient solution by incorporating 2D
Boundary Guidance to significantly enhance the spatial distribution of Gaussian
blobs, resulting in clearer differentiation between objects and their
background. To address the challenge (ii), we propose a Box-Focused Sampling
strategy using 2D boxes to generate object probability distribution in 3D
spaces, allowing effective probabilistic sampling in 3D to retain more object
blobs and reduce noisy background blobs. Benefiting from our designs, our
3DGS-DET significantly outperforms the SOTA NeRF-based method, NeRF-Det,
achieving improvements of +6.6 on mAP@0.25 and +8.1 on mAP@0.5 for the ScanNet
dataset, and impressive +31.5 on mAP@0.25 for the ARKITScenes dataset.