EmerNeRF : Décomposition spatio-temporelle émergente de scènes par auto-supervision
EmerNeRF: Emergent Spatial-Temporal Scene Decomposition via Self-Supervision
November 3, 2023
Auteurs: Jiawei Yang, Boris Ivanovic, Or Litany, Xinshuo Weng, Seung Wook Kim, Boyi Li, Tong Che, Danfei Xu, Sanja Fidler, Marco Pavone, Yue Wang
cs.AI
Résumé
Nous présentons EmerNeRF, une approche simple mais puissante pour l'apprentissage de représentations spatio-temporelles de scènes de conduite dynamiques. Fondé sur les champs neuronaux, EmerNeRF capture simultanément la géométrie, l'apparence, le mouvement et la sémantique des scènes via un auto-amorçage. EmerNeRF repose sur deux composants clés : Premièrement, il stratifie les scènes en champs statiques et dynamiques. Cette décomposition émerge purement de l'auto-supervision, permettant à notre modèle d'apprendre à partir de sources de données générales et non contrôlées. Deuxièmement, EmerNeRF paramétrise un champ de flux induit à partir du champ dynamique et utilise ce champ de flux pour agréger davantage les caractéristiques multi-images, amplifiant ainsi la précision de rendu des objets dynamiques. Le couplage de ces trois champs (statique, dynamique et flux) permet à EmerNeRF de représenter des scènes hautement dynamiques de manière autonome, sans dépendre d'annotations de vérité terrain ou de modèles pré-entraînés pour la segmentation d'objets dynamiques ou l'estimation du flux optique. Notre méthode atteint des performances de pointe en simulation de capteurs, surpassant significativement les méthodes précédentes lors de la reconstruction de scènes statiques (+2.93 PSNR) et dynamiques (+3.70 PSNR). De plus, pour renforcer la généralisation sémantique d'EmerNeRF, nous élevons les caractéristiques des modèles de fondation visuels 2D dans l'espace-temps 4D et abordons un biais positionnel général dans les Transformers modernes, améliorant significativement les performances de perception 3D (par exemple, une amélioration relative de 37.50% en moyenne dans la précision de prédiction d'occupation). Enfin, nous construisons un ensemble de données diversifié et exigeant de 120 séquences pour évaluer les champs neuronaux dans des contextes extrêmes et hautement dynamiques.
English
We present EmerNeRF, a simple yet powerful approach for learning
spatial-temporal representations of dynamic driving scenes. Grounded in neural
fields, EmerNeRF simultaneously captures scene geometry, appearance, motion,
and semantics via self-bootstrapping. EmerNeRF hinges upon two core components:
First, it stratifies scenes into static and dynamic fields. This decomposition
emerges purely from self-supervision, enabling our model to learn from general,
in-the-wild data sources. Second, EmerNeRF parameterizes an induced flow field
from the dynamic field and uses this flow field to further aggregate
multi-frame features, amplifying the rendering precision of dynamic objects.
Coupling these three fields (static, dynamic, and flow) enables EmerNeRF to
represent highly-dynamic scenes self-sufficiently, without relying on ground
truth object annotations or pre-trained models for dynamic object segmentation
or optical flow estimation. Our method achieves state-of-the-art performance in
sensor simulation, significantly outperforming previous methods when
reconstructing static (+2.93 PSNR) and dynamic (+3.70 PSNR) scenes. In
addition, to bolster EmerNeRF's semantic generalization, we lift 2D visual
foundation model features into 4D space-time and address a general positional
bias in modern Transformers, significantly boosting 3D perception performance
(e.g., 37.50% relative improvement in occupancy prediction accuracy on
average). Finally, we construct a diverse and challenging 120-sequence dataset
to benchmark neural fields under extreme and highly-dynamic settings.