NeRF-Det: Apprendimento di Rappresentazioni Volumetriche Consapevoli della Geometria per il Rilevamento 3D da Viste Multiple

Abstract

Presentiamo NeRF-Det, un metodo innovativo per la rilevazione 3D in ambienti interni che utilizza immagini RGB con pose come input. A differenza dei metodi esistenti per la rilevazione 3D in interni che faticano a modellare la geometria della scena, il nostro metodo sfrutta in modo nuovo NeRF in modo end-to-end per stimare esplicitamente la geometria 3D, migliorando così le prestazioni di rilevazione 3D. Nello specifico, per evitare il significativo ritardo aggiuntivo associato all'ottimizzazione per scena di NeRF, introduciamo sufficienti prior geometriche per migliorare la generalizzabilità di NeRF-MLP. Inoltre, colleghiamo in modo sottile i rami di rilevazione e NeRF attraverso un MLP condiviso, consentendo un adattamento efficiente di NeRF alla rilevazione e producendo rappresentazioni volumetriche consapevoli della geometria per la rilevazione 3D. Il nostro metodo supera lo stato dell'arte di 3,9 mAP e 3,1 mAP rispettivamente sui benchmark ScanNet e ARKITScenes. Forniamo un'analisi approfondita per chiarire il funzionamento di NeRF-Det. Grazie al nostro design di addestramento congiunto, NeRF-Det è in grado di generalizzare bene a scene non viste per compiti di rilevazione di oggetti, sintesi di viste e stima della profondità senza richiedere ottimizzazione per scena. Il codice è disponibile all'indirizzo https://github.com/facebookresearch/NeRF-Det.

English

We present NeRF-Det, a novel method for indoor 3D detection with posed RGB images as input. Unlike existing indoor 3D detection methods that struggle to model scene geometry, our method makes novel use of NeRF in an end-to-end manner to explicitly estimate 3D geometry, thereby improving 3D detection performance. Specifically, to avoid the significant extra latency associated with per-scene optimization of NeRF, we introduce sufficient geometry priors to enhance the generalizability of NeRF-MLP. Furthermore, we subtly connect the detection and NeRF branches through a shared MLP, enabling an efficient adaptation of NeRF to detection and yielding geometry-aware volumetric representations for 3D detection. Our method outperforms state-of-the-arts by 3.9 mAP and 3.1 mAP on the ScanNet and ARKITScenes benchmarks, respectively. We provide extensive analysis to shed light on how NeRF-Det works. As a result of our joint-training design, NeRF-Det is able to generalize well to unseen scenes for object detection, view synthesis, and depth estimation tasks without requiring per-scene optimization. Code is available at https://github.com/facebookresearch/NeRF-Det.

NeRF-Det: Apprendimento di Rappresentazioni Volumetriche Consapevoli della Geometria per il Rilevamento 3D da Viste Multiple

NeRF-Det: Learning Geometry-Aware Volumetric Representation for Multi-View 3D Object Detection

Abstract

Support