NeRF-Det: Aprendendo Representações Volumétricas Conscientes da Geometria para Detecção 3D de Objetos em Múltiplas Visões
NeRF-Det: Learning Geometry-Aware Volumetric Representation for Multi-View 3D Object Detection
July 27, 2023
Autores: Chenfeng Xu, Bichen Wu, Ji Hou, Sam Tsai, Ruilong Li, Jialiang Wang, Wei Zhan, Zijian He, Peter Vajda, Kurt Keutzer, Masayoshi Tomizuka
cs.AI
Resumo
Apresentamos o NeRF-Det, um método inovador para detecção 3D em ambientes internos utilizando imagens RGB com pose como entrada. Diferente dos métodos existentes de detecção 3D em ambientes internos que enfrentam dificuldades para modelar a geometria da cena, nosso método faz uso inédito do NeRF de forma end-to-end para estimar explicitamente a geometria 3D, melhorando assim o desempenho na detecção 3D. Especificamente, para evitar a latência adicional significativa associada à otimização por cena do NeRF, introduzimos priors geométricos suficientes para aumentar a generalização do NeRF-MLP. Além disso, conectamos sutilmente os ramos de detecção e NeRF por meio de um MLP compartilhado, permitindo uma adaptação eficiente do NeRF para detecção e gerando representações volumétricas conscientes da geometria para detecção 3D. Nosso método supera os state-of-the-arts em 3,9 mAP e 3,1 mAP nos benchmarks ScanNet e ARKITScenes, respectivamente. Fornecemos uma análise extensa para esclarecer o funcionamento do NeRF-Det. Como resultado de nosso design de treinamento conjunto, o NeRF-Det é capaz de generalizar bem para cenas não vistas em tarefas de detecção de objetos, síntese de visão e estimativa de profundidade, sem a necessidade de otimização por cena. O código está disponível em https://github.com/facebookresearch/NeRF-Det.
English
We present NeRF-Det, a novel method for indoor 3D detection with posed RGB
images as input. Unlike existing indoor 3D detection methods that struggle to
model scene geometry, our method makes novel use of NeRF in an end-to-end
manner to explicitly estimate 3D geometry, thereby improving 3D detection
performance. Specifically, to avoid the significant extra latency associated
with per-scene optimization of NeRF, we introduce sufficient geometry priors to
enhance the generalizability of NeRF-MLP. Furthermore, we subtly connect the
detection and NeRF branches through a shared MLP, enabling an efficient
adaptation of NeRF to detection and yielding geometry-aware volumetric
representations for 3D detection. Our method outperforms state-of-the-arts by
3.9 mAP and 3.1 mAP on the ScanNet and ARKITScenes benchmarks, respectively. We
provide extensive analysis to shed light on how NeRF-Det works. As a result of
our joint-training design, NeRF-Det is able to generalize well to unseen scenes
for object detection, view synthesis, and depth estimation tasks without
requiring per-scene optimization. Code is available at
https://github.com/facebookresearch/NeRF-Det.