ChatPaper.aiChatPaper

NeRF-Det: Lernen geometriebewusster volumetrischer Repräsentationen für die 3D-Objekterkennung aus mehreren Blickwinkeln

NeRF-Det: Learning Geometry-Aware Volumetric Representation for Multi-View 3D Object Detection

July 27, 2023
Autoren: Chenfeng Xu, Bichen Wu, Ji Hou, Sam Tsai, Ruilong Li, Jialiang Wang, Wei Zhan, Zijian He, Peter Vajda, Kurt Keutzer, Masayoshi Tomizuka
cs.AI

Zusammenfassung

Wir präsentieren NeRF-Det, eine neuartige Methode für die 3D-Erkennung in Innenräumen mit positionierten RGB-Bildern als Eingabe. Im Gegensatz zu bestehenden Methoden zur 3D-Erkennung in Innenräumen, die Schwierigkeiten haben, die Szenengeometrie zu modellieren, nutzt unsere Methode NeRF auf neuartige Weise in einem End-to-End-Verfahren, um die 3D-Geometrie explizit zu schätzen und dadurch die 3D-Erkennungsleistung zu verbessern. Um die erhebliche zusätzliche Latenz zu vermeiden, die mit der pro-Szene-Optimierung von NeRF verbunden ist, führen wir ausreichende Geometrie-Priors ein, um die Generalisierbarkeit von NeRF-MLP zu verbessern. Darüber hinaus verbinden wir die Erkennungs- und NeRF-Zweige subtil durch ein gemeinsames MLP, was eine effiziente Anpassung von NeRF an die Erkennung ermöglicht und geometrie-bewusste volumetrische Darstellungen für die 3D-Erkennung liefert. Unsere Methode übertrifft den Stand der Technik um 3,9 mAP und 3,1 mAP auf den Benchmarks ScanNet und ARKITScenes. Wir bieten eine umfangreiche Analyse, um Einblicke in die Funktionsweise von NeRF-Det zu geben. Dank unseres Joint-Training-Designs kann NeRF-Det gut auf unbekannte Szenen für Objekterkennung, Viewsynthese und Tiefenschätzung generalisieren, ohne eine pro-Szene-Optimierung zu erfordern. Der Code ist verfügbar unter https://github.com/facebookresearch/NeRF-Det.
English
We present NeRF-Det, a novel method for indoor 3D detection with posed RGB images as input. Unlike existing indoor 3D detection methods that struggle to model scene geometry, our method makes novel use of NeRF in an end-to-end manner to explicitly estimate 3D geometry, thereby improving 3D detection performance. Specifically, to avoid the significant extra latency associated with per-scene optimization of NeRF, we introduce sufficient geometry priors to enhance the generalizability of NeRF-MLP. Furthermore, we subtly connect the detection and NeRF branches through a shared MLP, enabling an efficient adaptation of NeRF to detection and yielding geometry-aware volumetric representations for 3D detection. Our method outperforms state-of-the-arts by 3.9 mAP and 3.1 mAP on the ScanNet and ARKITScenes benchmarks, respectively. We provide extensive analysis to shed light on how NeRF-Det works. As a result of our joint-training design, NeRF-Det is able to generalize well to unseen scenes for object detection, view synthesis, and depth estimation tasks without requiring per-scene optimization. Code is available at https://github.com/facebookresearch/NeRF-Det.
PDF140December 15, 2024