ChatPaper.aiChatPaper

3DGS-DET: Potencialize a Sobreposição Gaussiana 3D com Orientação de Limites e Amostragem Focada em Caixa para Detecção de Objetos 3D

3DGS-DET: Empower 3D Gaussian Splatting with Boundary Guidance and Box-Focused Sampling for 3D Object Detection

October 2, 2024
Autores: Yang Cao, Yuanliang Jv, Dan Xu
cs.AI

Resumo

Os Campos de Radiância Neural (NeRF) são amplamente utilizados para síntese de novas visualizações e foram adaptados para Detecção de Objetos 3D (3DOD), oferecendo uma abordagem promissora para o 3DOD por meio de representação de síntese de visualização. No entanto, o NeRF enfrenta limitações inerentes: (i) capacidade representacional limitada para 3DOD devido à sua natureza implícita e (ii) velocidades de renderização lentas. Recentemente, o Splatting Gaussiano 3D (3DGS) surgiu como uma representação 3D explícita que aborda essas limitações. Inspirado por essas vantagens, este artigo introduz o 3DGS no 3DOD pela primeira vez, identificando dois desafios principais: (i) Distribuição espacial ambígua de blobs gaussianos: o 3DGS depende principalmente da supervisão em nível de pixel 2D, resultando em uma distribuição espacial 3D de blobs gaussianos pouco clara e uma diferenciação fraca entre objetos e fundo, o que prejudica o 3DOD; (ii) Excesso de blobs de fundo: imagens 2D frequentemente incluem numerosos pixels de fundo, resultando em um 3DGS densamente reconstruído com muitos blobs gaussianos ruidosos representando o fundo, afetando negativamente a detecção. Para enfrentar o desafio (i), aproveitamos o fato de que a reconstrução do 3DGS é derivada de imagens 2D e propomos uma solução elegante e eficiente incorporando Orientação de Borda 2D para aprimorar significativamente a distribuição espacial de blobs gaussianos, resultando em uma diferenciação mais clara entre objetos e seus fundos. Para abordar o desafio (ii), propomos uma estratégia de Amostragem Focada em Caixas usando caixas 2D para gerar distribuição de probabilidade de objeto em espaços 3D, permitindo amostragem probabilística eficaz em 3D para reter mais blobs de objeto e reduzir blobs ruidosos de fundo. Beneficiando-se de nossos projetos, nosso 3DGS-DET supera significativamente o método NeRF baseado em SOTA, NeRF-Det, alcançando melhorias de +6,6 no mAP@0,25 e +8,1 no mAP@0,5 para o conjunto de dados ScanNet, e impressionantes +31,5 no mAP@0,25 para o conjunto de dados ARKITScenes.
English
Neural Radiance Fields (NeRF) are widely used for novel-view synthesis and have been adapted for 3D Object Detection (3DOD), offering a promising approach to 3DOD through view-synthesis representation. However, NeRF faces inherent limitations: (i) limited representational capacity for 3DOD due to its implicit nature, and (ii) slow rendering speeds. Recently, 3D Gaussian Splatting (3DGS) has emerged as an explicit 3D representation that addresses these limitations. Inspired by these advantages, this paper introduces 3DGS into 3DOD for the first time, identifying two main challenges: (i) Ambiguous spatial distribution of Gaussian blobs: 3DGS primarily relies on 2D pixel-level supervision, resulting in unclear 3D spatial distribution of Gaussian blobs and poor differentiation between objects and background, which hinders 3DOD; (ii) Excessive background blobs: 2D images often include numerous background pixels, leading to densely reconstructed 3DGS with many noisy Gaussian blobs representing the background, negatively affecting detection. To tackle the challenge (i), we leverage the fact that 3DGS reconstruction is derived from 2D images, and propose an elegant and efficient solution by incorporating 2D Boundary Guidance to significantly enhance the spatial distribution of Gaussian blobs, resulting in clearer differentiation between objects and their background. To address the challenge (ii), we propose a Box-Focused Sampling strategy using 2D boxes to generate object probability distribution in 3D spaces, allowing effective probabilistic sampling in 3D to retain more object blobs and reduce noisy background blobs. Benefiting from our designs, our 3DGS-DET significantly outperforms the SOTA NeRF-based method, NeRF-Det, achieving improvements of +6.6 on mAP@0.25 and +8.1 on mAP@0.5 for the ScanNet dataset, and impressive +31.5 on mAP@0.25 for the ARKITScenes dataset.
PDF312November 16, 2024