NeRF-Det : Apprentissage d'une représentation volumétrique prenant en compte la géométrie pour la détection 3D multi-vues
NeRF-Det: Learning Geometry-Aware Volumetric Representation for Multi-View 3D Object Detection
July 27, 2023
Auteurs: Chenfeng Xu, Bichen Wu, Ji Hou, Sam Tsai, Ruilong Li, Jialiang Wang, Wei Zhan, Zijian He, Peter Vajda, Kurt Keutzer, Masayoshi Tomizuka
cs.AI
Résumé
Nous présentons NeRF-Det, une méthode novatrice pour la détection 3D en intérieur utilisant des images RGB posées en entrée. Contrairement aux méthodes existantes de détection 3D en intérieur qui peinent à modéliser la géométrie des scènes, notre méthode exploite de manière inédite NeRF de bout en bout pour estimer explicitement la géométrie 3D, améliorant ainsi les performances de détection 3D. Plus précisément, pour éviter la latence supplémentaire importante associée à l'optimisation par scène de NeRF, nous introduisons des préconceptions géométriques suffisantes pour améliorer la généralisabilité du MLP de NeRF. De plus, nous connectons subtilement les branches de détection et de NeRF via un MLP partagé, permettant une adaptation efficace de NeRF à la détection et produisant des représentations volumétriques conscientes de la géométrie pour la détection 3D. Notre méthode surpasse l'état de l'art avec des gains de 3,9 mAP et 3,1 mAP sur les benchmarks ScanNet et ARKITScenes, respectivement. Nous fournissons une analyse approfondie pour éclairer le fonctionnement de NeRF-Det. Grâce à notre conception d'entraînement conjoint, NeRF-Det est capable de bien généraliser à des scènes non vues pour les tâches de détection d'objets, de synthèse de vues et d'estimation de profondeur sans nécessiter d'optimisation par scène. Le code est disponible à l'adresse https://github.com/facebookresearch/NeRF-Det.
English
We present NeRF-Det, a novel method for indoor 3D detection with posed RGB
images as input. Unlike existing indoor 3D detection methods that struggle to
model scene geometry, our method makes novel use of NeRF in an end-to-end
manner to explicitly estimate 3D geometry, thereby improving 3D detection
performance. Specifically, to avoid the significant extra latency associated
with per-scene optimization of NeRF, we introduce sufficient geometry priors to
enhance the generalizability of NeRF-MLP. Furthermore, we subtly connect the
detection and NeRF branches through a shared MLP, enabling an efficient
adaptation of NeRF to detection and yielding geometry-aware volumetric
representations for 3D detection. Our method outperforms state-of-the-arts by
3.9 mAP and 3.1 mAP on the ScanNet and ARKITScenes benchmarks, respectively. We
provide extensive analysis to shed light on how NeRF-Det works. As a result of
our joint-training design, NeRF-Det is able to generalize well to unseen scenes
for object detection, view synthesis, and depth estimation tasks without
requiring per-scene optimization. Code is available at
https://github.com/facebookresearch/NeRF-Det.