3DGS-DET: Versterk 3D Gaussisch Splatting met Grensbegeleiding en Doelgerichte Bemonstering voor 3D Objectdetectie
3DGS-DET: Empower 3D Gaussian Splatting with Boundary Guidance and Box-Focused Sampling for 3D Object Detection
October 2, 2024
Auteurs: Yang Cao, Yuanliang Jv, Dan Xu
cs.AI
Samenvatting
Neural Radiance Fields (NeRF) worden veel gebruikt voor het synthetiseren van nieuwe weergaven en zijn aangepast voor driedimensionale objectdetectie (3DOD), wat een veelbelovende benadering biedt voor 3DOD via weergave door synthese. NeRF kampt echter met inherente beperkingen: (i) beperkte representatiecapaciteit voor 3DOD vanwege zijn impliciete aard, en (ii) trage renderingsnelheden. Onlangs is driedimensionaal Gaussisch splatten (3DGS) naar voren gekomen als een expliciete 3D-representatie die deze beperkingen aanpakt. Geïnspireerd door deze voordelen, introduceert dit artikel 3DGS voor het eerst in 3DOD, waarbij twee belangrijke uitdagingen worden geïdentificeerd: (i) Ambigue ruimtelijke verdeling van Gaussische blobs: 3DGS vertrouwt voornamelijk op 2D pixelniveau-toezicht, wat resulteert in een onduidelijke driedimensionale ruimtelijke verdeling van Gaussische blobs en een slechte differentiatie tussen objecten en achtergrond, wat 3DOD belemmert; (ii) Overmatige achtergrondblobs: 2D-beelden bevatten vaak talrijke achtergrondpixels, wat leidt tot dicht gereconstrueerde 3DGS met veel ruisachtige Gaussische blobs die de achtergrond vertegenwoordigen, wat de detectie negatief beïnvloedt. Om uitdaging (i) aan te pakken, maken we gebruik van het feit dat 3DGS-reconstructie is afgeleid van 2D-beelden, en stellen we een elegante en efficiënte oplossing voor door 2D Grensbegeleiding op te nemen om de ruimtelijke verdeling van Gaussische blobs aanzienlijk te verbeteren, resulterend in een duidelijkere differentiatie tussen objecten en hun achtergrond. Om uitdaging (ii) aan te gaan, stellen we een Box-Gefocuste Monsteringsstrategie voor met behulp van 2D-boxen om objectwaarschijnlijkheidsverdeling in driedimensionale ruimtes te genereren, waardoor effectieve probabilistische monstering in 3D mogelijk is om meer objectblobs te behouden en ruisachtige achtergrondblobs te verminderen. Profiterend van onze ontwerpen presteert onze 3DGS-DET aanzienlijk beter dan de toonaangevende NeRF-gebaseerde methode, NeRF-Det, met verbeteringen van +6.6 op [email protected] en +8.1 op [email protected] voor de ScanNet-dataset, en een indrukwekkende +31.5 op [email protected] voor de ARKITScenes-dataset.
English
Neural Radiance Fields (NeRF) are widely used for novel-view synthesis and
have been adapted for 3D Object Detection (3DOD), offering a promising approach
to 3DOD through view-synthesis representation. However, NeRF faces inherent
limitations: (i) limited representational capacity for 3DOD due to its implicit
nature, and (ii) slow rendering speeds. Recently, 3D Gaussian Splatting (3DGS)
has emerged as an explicit 3D representation that addresses these limitations.
Inspired by these advantages, this paper introduces 3DGS into 3DOD for the
first time, identifying two main challenges: (i) Ambiguous spatial distribution
of Gaussian blobs: 3DGS primarily relies on 2D pixel-level supervision,
resulting in unclear 3D spatial distribution of Gaussian blobs and poor
differentiation between objects and background, which hinders 3DOD; (ii)
Excessive background blobs: 2D images often include numerous background pixels,
leading to densely reconstructed 3DGS with many noisy Gaussian blobs
representing the background, negatively affecting detection. To tackle the
challenge (i), we leverage the fact that 3DGS reconstruction is derived from 2D
images, and propose an elegant and efficient solution by incorporating 2D
Boundary Guidance to significantly enhance the spatial distribution of Gaussian
blobs, resulting in clearer differentiation between objects and their
background. To address the challenge (ii), we propose a Box-Focused Sampling
strategy using 2D boxes to generate object probability distribution in 3D
spaces, allowing effective probabilistic sampling in 3D to retain more object
blobs and reduce noisy background blobs. Benefiting from our designs, our
3DGS-DET significantly outperforms the SOTA NeRF-based method, NeRF-Det,
achieving improvements of +6.6 on [email protected] and +8.1 on [email protected] for the ScanNet
dataset, and impressive +31.5 on [email protected] for the ARKITScenes dataset.Summary
AI-Generated Summary