3DGS-DET: Stärkung der 3D-Gaußschen Splatting mit Randführung und Box-fokussierter Abtastung für die 3D-Objekterkennung
3DGS-DET: Empower 3D Gaussian Splatting with Boundary Guidance and Box-Focused Sampling for 3D Object Detection
October 2, 2024
Autoren: Yang Cao, Yuanliang Jv, Dan Xu
cs.AI
Zusammenfassung
Neuronale Strahlungsfelder (NeRF) werden weit verbreitet für die Synthese von neuen Ansichten verwendet und wurden für die 3D-Objekterkennung (3DOD) angepasst, was einen vielversprechenden Ansatz für die 3DOD durch die Darstellung der Ansichtssynthese bietet. Allerdings hat NeRF inhärente Einschränkungen: (i) begrenzte Darstellungskapazität für 3DOD aufgrund seiner impliziten Natur und (ii) langsame Rendergeschwindigkeiten. Kürzlich hat sich das 3D-Gauß-Splatting (3DGS) als explizite 3D-Darstellung herausgebildet, die diese Einschränkungen angeht. Inspiriert von diesen Vorteilen führt diese Arbeit 3DGS erstmals in die 3DOD ein und identifiziert zwei Hauptprobleme: (i) Unklare räumliche Verteilung von Gauß'schen Blobs: 3DGS stützt sich hauptsächlich auf 2D-Pixel-Ebene-Aufsicht, was zu einer unklaren 3D-räumlichen Verteilung von Gauß'schen Blobs und einer schlechten Unterscheidung zwischen Objekten und Hintergrund führt, was die 3DOD behindert; (ii) Übermäßige Hintergrundblobs: 2D-Bilder enthalten oft zahlreiche Hintergrundpixel, was zu dicht rekonstruiertem 3DGS mit vielen rauschenden Gauß'schen Blobs führt, die den Hintergrund repräsentieren und die Erkennung negativ beeinflussen. Um das Problem (i) anzugehen, nutzen wir die Tatsache, dass die 3DGS-Rekonstruktion aus 2D-Bildern abgeleitet ist, und schlagen eine elegante und effiziente Lösung vor, indem wir eine 2D-Randführung integrieren, um die räumliche Verteilung von Gauß'schen Blobs signifikant zu verbessern, was zu einer klareren Unterscheidung zwischen Objekten und ihrem Hintergrund führt. Um das Problem (ii) anzugehen, schlagen wir eine Box-fokussierte Abtaststrategie unter Verwendung von 2D-Boxen vor, um die Objektwahrscheinlichkeitsverteilung im 3D-Raum zu generieren, was eine effektive probabilistische Abtastung in 3D ermöglicht, um mehr Objektblobs zu erhalten und rauschende Hintergrundblobs zu reduzieren. Durch unsere Entwürfe profitierend, übertrifft unser 3DGS-DET signifikant die SOTA NeRF-basierte Methode, NeRF-Det, und erzielt Verbesserungen von +6,6 bei mAP@0,25 und +8,1 bei mAP@0,5 für den ScanNet-Datensatz sowie beeindruckende +31,5 bei mAP@0,25 für den ARKITScenes-Datensatz.
English
Neural Radiance Fields (NeRF) are widely used for novel-view synthesis and
have been adapted for 3D Object Detection (3DOD), offering a promising approach
to 3DOD through view-synthesis representation. However, NeRF faces inherent
limitations: (i) limited representational capacity for 3DOD due to its implicit
nature, and (ii) slow rendering speeds. Recently, 3D Gaussian Splatting (3DGS)
has emerged as an explicit 3D representation that addresses these limitations.
Inspired by these advantages, this paper introduces 3DGS into 3DOD for the
first time, identifying two main challenges: (i) Ambiguous spatial distribution
of Gaussian blobs: 3DGS primarily relies on 2D pixel-level supervision,
resulting in unclear 3D spatial distribution of Gaussian blobs and poor
differentiation between objects and background, which hinders 3DOD; (ii)
Excessive background blobs: 2D images often include numerous background pixels,
leading to densely reconstructed 3DGS with many noisy Gaussian blobs
representing the background, negatively affecting detection. To tackle the
challenge (i), we leverage the fact that 3DGS reconstruction is derived from 2D
images, and propose an elegant and efficient solution by incorporating 2D
Boundary Guidance to significantly enhance the spatial distribution of Gaussian
blobs, resulting in clearer differentiation between objects and their
background. To address the challenge (ii), we propose a Box-Focused Sampling
strategy using 2D boxes to generate object probability distribution in 3D
spaces, allowing effective probabilistic sampling in 3D to retain more object
blobs and reduce noisy background blobs. Benefiting from our designs, our
3DGS-DET significantly outperforms the SOTA NeRF-based method, NeRF-Det,
achieving improvements of +6.6 on [email protected] and +8.1 on [email protected] for the ScanNet
dataset, and impressive +31.5 on [email protected] for the ARKITScenes dataset.Summary
AI-Generated Summary