3DGS-DET: Potenzia lo Splatting Gaussiano 3D con Guida ai Confini e Campionamento Focalizzato su Scatole per il Rilevamento di Oggetti 3D
3DGS-DET: Empower 3D Gaussian Splatting with Boundary Guidance and Box-Focused Sampling for 3D Object Detection
October 2, 2024
Autori: Yang Cao, Yuanliang Jv, Dan Xu
cs.AI
Abstract
I campi di radianza neurale (NeRF) sono ampiamente utilizzati per la sintesi di nuove visuali e sono stati adattati per il rilevamento di oggetti in 3D (3DOD), offrendo un approccio promettente al 3DOD attraverso la rappresentazione della sintesi delle visuali. Tuttavia, NeRF affronta limitazioni intrinseche: (i) capacità rappresentativa limitata per il 3DOD a causa della sua natura implicita, e (ii) velocità di rendering lenta. Di recente, lo Splatting Gaussiano in 3D (3DGS) è emerso come una rappresentazione 3D esplicita che affronta queste limitazioni. Ispirandosi a questi vantaggi, questo articolo introduce per la prima volta il 3DGS nel 3DOD, identificando due sfide principali: (i) Distribuzione spaziale ambigua dei blob gaussiani: il 3DGS si basa principalmente sulla supervisione a livello di pixel 2D, risultando in una distribuzione spaziale 3D poco chiara dei blob gaussiani e una scarsa differenziazione tra oggetti e sfondo, che ostacola il 3DOD; (ii) Eccessivi blob di sfondo: le immagini 2D includono spesso numerosi pixel di sfondo, portando a una ricostruzione densa del 3DGS con molti blob gaussiani rumorosi che rappresentano lo sfondo, influenzando negativamente la rilevazione. Per affrontare la sfida (i), sfruttiamo il fatto che la ricostruzione del 3DGS deriva dalle immagini 2D e proponiamo una soluzione elegante ed efficiente incorporando una Guida ai Confini 2D per migliorare significativamente la distribuzione spaziale dei blob gaussiani, ottenendo una differenziazione più chiara tra gli oggetti e il loro sfondo. Per affrontare la sfida (ii), proponiamo una strategia di Campionamento Focalizzato sulla Scatola utilizzando scatole 2D per generare una distribuzione di probabilità degli oggetti negli spazi 3D, consentendo un campionamento probabilistico efficace in 3D per mantenere più blob di oggetti e ridurre i blob rumorosi di sfondo. Beneficiando dei nostri progetti, il nostro 3DGS-DET supera significativamente il metodo NeRF basato sullo stato dell'arte, NeRF-Det, ottenendo miglioramenti di +6,6 su mAP@0,25 e +8,1 su mAP@0,5 per il dataset ScanNet, e un impressionante +31,5 su mAP@0,25 per il dataset ARKITScenes.
English
Neural Radiance Fields (NeRF) are widely used for novel-view synthesis and
have been adapted for 3D Object Detection (3DOD), offering a promising approach
to 3DOD through view-synthesis representation. However, NeRF faces inherent
limitations: (i) limited representational capacity for 3DOD due to its implicit
nature, and (ii) slow rendering speeds. Recently, 3D Gaussian Splatting (3DGS)
has emerged as an explicit 3D representation that addresses these limitations.
Inspired by these advantages, this paper introduces 3DGS into 3DOD for the
first time, identifying two main challenges: (i) Ambiguous spatial distribution
of Gaussian blobs: 3DGS primarily relies on 2D pixel-level supervision,
resulting in unclear 3D spatial distribution of Gaussian blobs and poor
differentiation between objects and background, which hinders 3DOD; (ii)
Excessive background blobs: 2D images often include numerous background pixels,
leading to densely reconstructed 3DGS with many noisy Gaussian blobs
representing the background, negatively affecting detection. To tackle the
challenge (i), we leverage the fact that 3DGS reconstruction is derived from 2D
images, and propose an elegant and efficient solution by incorporating 2D
Boundary Guidance to significantly enhance the spatial distribution of Gaussian
blobs, resulting in clearer differentiation between objects and their
background. To address the challenge (ii), we propose a Box-Focused Sampling
strategy using 2D boxes to generate object probability distribution in 3D
spaces, allowing effective probabilistic sampling in 3D to retain more object
blobs and reduce noisy background blobs. Benefiting from our designs, our
3DGS-DET significantly outperforms the SOTA NeRF-based method, NeRF-Det,
achieving improvements of +6.6 on mAP@0.25 and +8.1 on mAP@0.5 for the ScanNet
dataset, and impressive +31.5 on mAP@0.25 for the ARKITScenes dataset.