NeRF-Det: Обучение геометрически осознанного объемного представления для трехмерного обнаружения объектов на основе мультивью
NeRF-Det: Learning Geometry-Aware Volumetric Representation for Multi-View 3D Object Detection
July 27, 2023
Авторы: Chenfeng Xu, Bichen Wu, Ji Hou, Sam Tsai, Ruilong Li, Jialiang Wang, Wei Zhan, Zijian He, Peter Vajda, Kurt Keutzer, Masayoshi Tomizuka
cs.AI
Аннотация
Мы представляем NeRF-Det — новый метод для 3D-детекции в помещениях, использующий в качестве входных данных RGB-изображения с известной позой. В отличие от существующих методов 3D-детекции в помещениях, которые испытывают трудности с моделированием геометрии сцены, наш метод оригинально использует NeRF в сквозном режиме для явного оценивания 3D-геометрии, что улучшает производительность 3D-детекции. В частности, чтобы избежать значительных дополнительных задержек, связанных с оптимизацией NeRF для каждой сцены, мы вводим достаточные геометрические априорные данные для повышения обобщаемости NeRF-MLP. Кроме того, мы тонко связываем ветви детекции и NeRF через общий MLP, что позволяет эффективно адаптировать NeRF для детекции и создавать геометрически осознанные объемные представления для 3D-детекции. Наш метод превосходит современные подходы на 3.9 mAP и 3.1 mAP на бенчмарках ScanNet и ARKITScenes соответственно. Мы предоставляем подробный анализ, чтобы прояснить, как работает NeRF-Det. Благодаря нашему совместному подходу к обучению, NeRF-Det способен хорошо обобщаться на неизвестные сцены для задач детекции объектов, синтеза видов и оценки глубины без необходимости оптимизации для каждой сцены. Код доступен по адресу https://github.com/facebookresearch/NeRF-Det.
English
We present NeRF-Det, a novel method for indoor 3D detection with posed RGB
images as input. Unlike existing indoor 3D detection methods that struggle to
model scene geometry, our method makes novel use of NeRF in an end-to-end
manner to explicitly estimate 3D geometry, thereby improving 3D detection
performance. Specifically, to avoid the significant extra latency associated
with per-scene optimization of NeRF, we introduce sufficient geometry priors to
enhance the generalizability of NeRF-MLP. Furthermore, we subtly connect the
detection and NeRF branches through a shared MLP, enabling an efficient
adaptation of NeRF to detection and yielding geometry-aware volumetric
representations for 3D detection. Our method outperforms state-of-the-arts by
3.9 mAP and 3.1 mAP on the ScanNet and ARKITScenes benchmarks, respectively. We
provide extensive analysis to shed light on how NeRF-Det works. As a result of
our joint-training design, NeRF-Det is able to generalize well to unseen scenes
for object detection, view synthesis, and depth estimation tasks without
requiring per-scene optimization. Code is available at
https://github.com/facebookresearch/NeRF-Det.