NeRF-Det: Aprendizaje de Representaciones Volumétricas Conscientes de la Geometría para la Detección 3D de Objetos con Múltiples Vistas
NeRF-Det: Learning Geometry-Aware Volumetric Representation for Multi-View 3D Object Detection
July 27, 2023
Autores: Chenfeng Xu, Bichen Wu, Ji Hou, Sam Tsai, Ruilong Li, Jialiang Wang, Wei Zhan, Zijian He, Peter Vajda, Kurt Keutzer, Masayoshi Tomizuka
cs.AI
Resumen
Presentamos NeRF-Det, un método novedoso para la detección 3D en interiores que utiliza imágenes RGB con pose como entrada. A diferencia de los métodos existentes de detección 3D en interiores que tienen dificultades para modelar la geometría de la escena, nuestro método utiliza NeRF de manera novedosa en un enfoque de extremo a extremo para estimar explícitamente la geometría 3D, mejorando así el rendimiento en la detección 3D. Específicamente, para evitar la latencia adicional significativa asociada con la optimización por escena de NeRF, introducimos suficientes priors geométricos para mejorar la generalización de NeRF-MLP. Además, conectamos sutilmente las ramas de detección y NeRF a través de una MLP compartida, permitiendo una adaptación eficiente de NeRF para la detección y generando representaciones volumétricas conscientes de la geometría para la detección 3D. Nuestro método supera a los métodos más avanzados en 3.9 mAP y 3.1 mAP en los benchmarks de ScanNet y ARKITScenes, respectivamente. Proporcionamos un análisis extenso para esclarecer cómo funciona NeRF-Det. Como resultado de nuestro diseño de entrenamiento conjunto, NeRF-Det es capaz de generalizar bien a escenas no vistas para tareas de detección de objetos, síntesis de vistas y estimación de profundidad sin requerir optimización por escena. El código está disponible en https://github.com/facebookresearch/NeRF-Det.
English
We present NeRF-Det, a novel method for indoor 3D detection with posed RGB
images as input. Unlike existing indoor 3D detection methods that struggle to
model scene geometry, our method makes novel use of NeRF in an end-to-end
manner to explicitly estimate 3D geometry, thereby improving 3D detection
performance. Specifically, to avoid the significant extra latency associated
with per-scene optimization of NeRF, we introduce sufficient geometry priors to
enhance the generalizability of NeRF-MLP. Furthermore, we subtly connect the
detection and NeRF branches through a shared MLP, enabling an efficient
adaptation of NeRF to detection and yielding geometry-aware volumetric
representations for 3D detection. Our method outperforms state-of-the-arts by
3.9 mAP and 3.1 mAP on the ScanNet and ARKITScenes benchmarks, respectively. We
provide extensive analysis to shed light on how NeRF-Det works. As a result of
our joint-training design, NeRF-Det is able to generalize well to unseen scenes
for object detection, view synthesis, and depth estimation tasks without
requiring per-scene optimization. Code is available at
https://github.com/facebookresearch/NeRF-Det.