NeRF-Det: Het leren van geometrie-bewuste volumetrische representaties voor multi-view 3D-objectdetectie

Samenvatting

We presenteren NeRF-Det, een nieuwe methode voor 3D-detectie binnenshuis met gepositioneerde RGB-beelden als invoer. In tegenstelling tot bestaande methoden voor 3D-detectie binnenshuis die moeite hebben met het modelleren van scènegeometrie, maakt onze methode op een nieuwe manier gebruik van NeRF in een end-to-end benadering om expliciet 3D-geometrie te schatten, waardoor de prestaties van 3D-detectie worden verbeterd. Specifiek introduceren we voldoende geometrische prior kennis om de generaliseerbaarheid van NeRF-MLP te verbeteren, om zo de aanzienlijke extra latentie die gepaard gaat met per-scène optimalisatie van NeRF te vermijden. Bovendien verbinden we op een subtiele manier de detectie- en NeRF-takken via een gedeelde MLP, wat een efficiënte aanpassing van NeRF aan detectie mogelijk maakt en resulteert in geometrie-bewuste volumetrische representaties voor 3D-detectie. Onze methode overtreft de state-of-the-art met 3,9 mAP en 3,1 mAP op respectievelijk de ScanNet- en ARKITScenes-benchmarks. We bieden uitgebreide analyses om inzicht te geven in hoe NeRF-Det werkt. Dankzij ons gezamenlijke trainingsontwerp kan NeRF-Det goed generaliseren naar onbekende scènes voor taken zoals objectdetectie, viewsynthese en diepteschatting, zonder per-scène optimalisatie te vereisen. Code is beschikbaar op https://github.com/facebookresearch/NeRF-Det.

English

We present NeRF-Det, a novel method for indoor 3D detection with posed RGB images as input. Unlike existing indoor 3D detection methods that struggle to model scene geometry, our method makes novel use of NeRF in an end-to-end manner to explicitly estimate 3D geometry, thereby improving 3D detection performance. Specifically, to avoid the significant extra latency associated with per-scene optimization of NeRF, we introduce sufficient geometry priors to enhance the generalizability of NeRF-MLP. Furthermore, we subtly connect the detection and NeRF branches through a shared MLP, enabling an efficient adaptation of NeRF to detection and yielding geometry-aware volumetric representations for 3D detection. Our method outperforms state-of-the-arts by 3.9 mAP and 3.1 mAP on the ScanNet and ARKITScenes benchmarks, respectively. We provide extensive analysis to shed light on how NeRF-Det works. As a result of our joint-training design, NeRF-Det is able to generalize well to unseen scenes for object detection, view synthesis, and depth estimation tasks without requiring per-scene optimization. Code is available at https://github.com/facebookresearch/NeRF-Det.

NeRF-Det: Het leren van geometrie-bewuste volumetrische representaties voor multi-view 3D-objectdetectie

NeRF-Det: Learning Geometry-Aware Volumetric Representation for Multi-View 3D Object Detection

Samenvatting

Support