NeRF-Det: Aprendendo Representações Volumétricas Conscientes da Geometria para Detecção 3D de Objetos em Múltiplas Visões

Resumo

Apresentamos o NeRF-Det, um método inovador para detecção 3D em ambientes internos utilizando imagens RGB com pose como entrada. Diferente dos métodos existentes de detecção 3D em ambientes internos que enfrentam dificuldades para modelar a geometria da cena, nosso método faz uso inédito do NeRF de forma end-to-end para estimar explicitamente a geometria 3D, melhorando assim o desempenho na detecção 3D. Especificamente, para evitar a latência adicional significativa associada à otimização por cena do NeRF, introduzimos priors geométricos suficientes para aumentar a generalização do NeRF-MLP. Além disso, conectamos sutilmente os ramos de detecção e NeRF por meio de um MLP compartilhado, permitindo uma adaptação eficiente do NeRF para detecção e gerando representações volumétricas conscientes da geometria para detecção 3D. Nosso método supera os state-of-the-arts em 3,9 mAP e 3,1 mAP nos benchmarks ScanNet e ARKITScenes, respectivamente. Fornecemos uma análise extensa para esclarecer o funcionamento do NeRF-Det. Como resultado de nosso design de treinamento conjunto, o NeRF-Det é capaz de generalizar bem para cenas não vistas em tarefas de detecção de objetos, síntese de visão e estimativa de profundidade, sem a necessidade de otimização por cena. O código está disponível em https://github.com/facebookresearch/NeRF-Det.

English

We present NeRF-Det, a novel method for indoor 3D detection with posed RGB images as input. Unlike existing indoor 3D detection methods that struggle to model scene geometry, our method makes novel use of NeRF in an end-to-end manner to explicitly estimate 3D geometry, thereby improving 3D detection performance. Specifically, to avoid the significant extra latency associated with per-scene optimization of NeRF, we introduce sufficient geometry priors to enhance the generalizability of NeRF-MLP. Furthermore, we subtly connect the detection and NeRF branches through a shared MLP, enabling an efficient adaptation of NeRF to detection and yielding geometry-aware volumetric representations for 3D detection. Our method outperforms state-of-the-arts by 3.9 mAP and 3.1 mAP on the ScanNet and ARKITScenes benchmarks, respectively. We provide extensive analysis to shed light on how NeRF-Det works. As a result of our joint-training design, NeRF-Det is able to generalize well to unseen scenes for object detection, view synthesis, and depth estimation tasks without requiring per-scene optimization. Code is available at https://github.com/facebookresearch/NeRF-Det.

NeRF-Det: Aprendendo Representações Volumétricas Conscientes da Geometria para Detecção 3D de Objetos em Múltiplas Visões

NeRF-Det: Learning Geometry-Aware Volumetric Representation for Multi-View 3D Object Detection

Resumo

Support