3DGS-DET : Renforcez la projection gaussienne 3D avec un guidage des frontières et un échantillonnage axé sur les boîtes pour la détection d'objets 3D.
3DGS-DET: Empower 3D Gaussian Splatting with Boundary Guidance and Box-Focused Sampling for 3D Object Detection
October 2, 2024
Auteurs: Yang Cao, Yuanliang Jv, Dan Xu
cs.AI
Résumé
Les Champs de Radiance Neuraux (NeRF) sont largement utilisés pour la synthèse de nouvelles vues et ont été adaptés à la Détection d'Objets en 3D (3DOD), offrant une approche prometteuse pour la 3DOD à travers une représentation par synthèse de vues. Cependant, NeRF fait face à des limitations inhérentes : (i) une capacité de représentation limitée pour la 3DOD en raison de sa nature implicite, et (ii) des vitesses de rendu lentes. Récemment, le Splatting Gaussien en 3D (3DGS) est apparu comme une représentation 3D explicite qui adresse ces limitations. Inspiré par ces avantages, cet article introduit pour la première fois le 3DGS dans la 3DOD, identifiant deux principaux défis : (i) Distribution spatiale ambiguë des blobs gaussiens : le 3DGS repose principalement sur une supervision au niveau des pixels 2D, entraînant une distribution spatiale 3D floue des blobs gaussiens et une faible différenciation entre les objets et l'arrière-plan, ce qui entrave la 3DOD ; (ii) Excès de blobs d'arrière-plan : les images 2D incluent souvent de nombreux pixels d'arrière-plan, conduisant à une reconstruction dense du 3DGS avec de nombreux blobs gaussiens bruyants représentant l'arrière-plan, affectant négativement la détection. Pour relever le défi (i), nous exploitons le fait que la reconstruction du 3DGS est dérivée des images 2D, et proposons une solution élégante et efficace en incorporant un Guidage de Bordure 2D pour améliorer significativement la distribution spatiale des blobs gaussiens, aboutissant à une différenciation plus claire entre les objets et leur arrière-plan. Pour répondre au défi (ii), nous proposons une stratégie d'Échantillonnage Axé sur les Boîtes en utilisant des boîtes 2D pour générer une distribution de probabilité d'objet dans les espaces 3D, permettant un échantillonnage probabiliste efficace en 3D pour conserver plus de blobs d'objet et réduire les blobs d'arrière-plan bruyants. Bénéficiant de nos conceptions, notre 3DGS-DET surpasse significativement la méthode NeRF-Det de pointe basée sur NeRF, réalisant des améliorations de +6,6 sur mAP@0,25 et +8,1 sur mAP@0,5 pour l'ensemble de données ScanNet, et impressionnant +31,5 sur mAP@0,25 pour l'ensemble de données ARKITScenes.
English
Neural Radiance Fields (NeRF) are widely used for novel-view synthesis and
have been adapted for 3D Object Detection (3DOD), offering a promising approach
to 3DOD through view-synthesis representation. However, NeRF faces inherent
limitations: (i) limited representational capacity for 3DOD due to its implicit
nature, and (ii) slow rendering speeds. Recently, 3D Gaussian Splatting (3DGS)
has emerged as an explicit 3D representation that addresses these limitations.
Inspired by these advantages, this paper introduces 3DGS into 3DOD for the
first time, identifying two main challenges: (i) Ambiguous spatial distribution
of Gaussian blobs: 3DGS primarily relies on 2D pixel-level supervision,
resulting in unclear 3D spatial distribution of Gaussian blobs and poor
differentiation between objects and background, which hinders 3DOD; (ii)
Excessive background blobs: 2D images often include numerous background pixels,
leading to densely reconstructed 3DGS with many noisy Gaussian blobs
representing the background, negatively affecting detection. To tackle the
challenge (i), we leverage the fact that 3DGS reconstruction is derived from 2D
images, and propose an elegant and efficient solution by incorporating 2D
Boundary Guidance to significantly enhance the spatial distribution of Gaussian
blobs, resulting in clearer differentiation between objects and their
background. To address the challenge (ii), we propose a Box-Focused Sampling
strategy using 2D boxes to generate object probability distribution in 3D
spaces, allowing effective probabilistic sampling in 3D to retain more object
blobs and reduce noisy background blobs. Benefiting from our designs, our
3DGS-DET significantly outperforms the SOTA NeRF-based method, NeRF-Det,
achieving improvements of +6.6 on [email protected] and +8.1 on [email protected] for the ScanNet
dataset, and impressive +31.5 on [email protected] for the ARKITScenes dataset.Summary
AI-Generated Summary