EmerNeRF: Emergent räumlich-zeitliche Szenenzerlegung durch Selbstüberwachung
EmerNeRF: Emergent Spatial-Temporal Scene Decomposition via Self-Supervision
November 3, 2023
Autoren: Jiawei Yang, Boris Ivanovic, Or Litany, Xinshuo Weng, Seung Wook Kim, Boyi Li, Tong Che, Danfei Xu, Sanja Fidler, Marco Pavone, Yue Wang
cs.AI
Zusammenfassung
Wir präsentieren EmerNeRF, einen einfachen, aber leistungsstarken Ansatz zum Lernen räumlich-zeitlicher Darstellungen dynamischer Fahrtszenen. Basierend auf neuronalen Feldern erfasst EmerNeRF gleichzeitig Szenengeometrie, Erscheinungsbild, Bewegung und Semantik durch Selbstbootstrapping. EmerNeRF stützt sich auf zwei Kernkomponenten: Erstens unterteilt es Szenen in statische und dynamische Felder. Diese Zerlegung entsteht rein durch Selbstüberwachung, wodurch unser Modell aus allgemeinen, in der Wildnis gesammelten Daten lernen kann. Zweitens parametrisiert EmerNeRF ein induziertes Strömungsfeld aus dem dynamischen Feld und verwendet dieses Strömungsfeld, um Merkmale aus mehreren Bildern weiter zu aggregieren, wodurch die Renderpräzision dynamischer Objekte verstärkt wird. Die Kopplung dieser drei Felder (statisch, dynamisch und Strömung) ermöglicht es EmerNeRF, hochdynamische Szenen eigenständig darzustellen, ohne auf Ground-Truth-Objektannotationen oder vortrainierte Modelle für dynamische Objektsegmentierung oder optische Flussabschätzung angewiesen zu sein. Unsere Methode erreicht Spitzenleistungen in der Sensorsimulation und übertrifft bisherige Methoden deutlich bei der Rekonstruktion statischer (+2,93 PSNR) und dynamischer (+3,70 PSNR) Szenen. Darüber hinaus heben wir, um die semantische Generalisierung von EmerNeRF zu stärken, 2D-Merkmale von visuellen Grundlagenmodellen in den 4D-Raum-Zeit-Bereich und adressieren eine allgemeine Positionsverzerrung in modernen Transformern, was die 3D-Wahrnehmungsleistung erheblich steigert (z. B. 37,50 % relative Verbesserung der Genauigkeit bei der Belegungsvorhersage im Durchschnitt). Schließlich erstellen wir einen vielfältigen und anspruchsvollen Datensatz mit 120 Sequenzen, um neuronale Felder unter extremen und hochdynamischen Bedingungen zu bewerten.
English
We present EmerNeRF, a simple yet powerful approach for learning
spatial-temporal representations of dynamic driving scenes. Grounded in neural
fields, EmerNeRF simultaneously captures scene geometry, appearance, motion,
and semantics via self-bootstrapping. EmerNeRF hinges upon two core components:
First, it stratifies scenes into static and dynamic fields. This decomposition
emerges purely from self-supervision, enabling our model to learn from general,
in-the-wild data sources. Second, EmerNeRF parameterizes an induced flow field
from the dynamic field and uses this flow field to further aggregate
multi-frame features, amplifying the rendering precision of dynamic objects.
Coupling these three fields (static, dynamic, and flow) enables EmerNeRF to
represent highly-dynamic scenes self-sufficiently, without relying on ground
truth object annotations or pre-trained models for dynamic object segmentation
or optical flow estimation. Our method achieves state-of-the-art performance in
sensor simulation, significantly outperforming previous methods when
reconstructing static (+2.93 PSNR) and dynamic (+3.70 PSNR) scenes. In
addition, to bolster EmerNeRF's semantic generalization, we lift 2D visual
foundation model features into 4D space-time and address a general positional
bias in modern Transformers, significantly boosting 3D perception performance
(e.g., 37.50% relative improvement in occupancy prediction accuracy on
average). Finally, we construct a diverse and challenging 120-sequence dataset
to benchmark neural fields under extreme and highly-dynamic settings.