ChatPaper.aiChatPaper

EmerNeRF: Emergente Ruimtelijk-Temporele Scène-decompositie via Zelfsupervisie

EmerNeRF: Emergent Spatial-Temporal Scene Decomposition via Self-Supervision

November 3, 2023
Auteurs: Jiawei Yang, Boris Ivanovic, Or Litany, Xinshuo Weng, Seung Wook Kim, Boyi Li, Tong Che, Danfei Xu, Sanja Fidler, Marco Pavone, Yue Wang
cs.AI

Samenvatting

We presenteren EmerNeRF, een eenvoudige maar krachtige aanpak voor het leren van ruimtelijk-temporele representaties van dynamische rijscènes. Gebaseerd op neurale velden, vangt EmerNeRF tegelijkertijd scènegeometrie, uiterlijk, beweging en semantiek op via zelf-bootstrapping. EmerNeRF rust op twee kerncomponenten: Ten eerste stratificeert het scènes in statische en dynamische velden. Deze decompositie ontstaat puur uit zelfsupervisie, waardoor ons model kan leren van algemene, in-the-wild databronnen. Ten tweede parametriseert EmerNeRF een geïnduceerd stromingsveld vanuit het dynamische veld en gebruikt dit stromingsveld om multi-frame kenmerken verder te aggregeren, waardoor de renderprecisie van dynamische objecten wordt versterkt. Door deze drie velden (statisch, dynamisch en stroming) te koppelen, kan EmerNeRF zeer dynamische scènes zelfstandig representeren, zonder te vertrouwen op grondwaarheidsobjectannotaties of vooraf getrainde modellen voor dynamische objectsegmentatie of optische stromingsschatting. Onze methode behaalt state-of-the-art prestaties in sensorsimulatie en overtreft aanzienlijk eerdere methoden bij het reconstrueren van statische (+2.93 PSNR) en dynamische (+3.70 PSNR) scènes. Daarnaast versterken we de semantische generalisatie van EmerNeRF door 2D-visuele foundation modelkenmerken te tillen naar 4D ruimte-tijd en adresseren we een algemene positionele bias in moderne Transformers, wat de 3D-waarnemingsprestaties aanzienlijk verbetert (bijvoorbeeld een relatieve verbetering van 37.50% in bezettingsvoorspellingsnauwkeurigheid gemiddeld). Tot slot construeren we een diverse en uitdagende dataset van 120 sequenties om neurale velden te benchmarken onder extreme en zeer dynamische omstandigheden.
English
We present EmerNeRF, a simple yet powerful approach for learning spatial-temporal representations of dynamic driving scenes. Grounded in neural fields, EmerNeRF simultaneously captures scene geometry, appearance, motion, and semantics via self-bootstrapping. EmerNeRF hinges upon two core components: First, it stratifies scenes into static and dynamic fields. This decomposition emerges purely from self-supervision, enabling our model to learn from general, in-the-wild data sources. Second, EmerNeRF parameterizes an induced flow field from the dynamic field and uses this flow field to further aggregate multi-frame features, amplifying the rendering precision of dynamic objects. Coupling these three fields (static, dynamic, and flow) enables EmerNeRF to represent highly-dynamic scenes self-sufficiently, without relying on ground truth object annotations or pre-trained models for dynamic object segmentation or optical flow estimation. Our method achieves state-of-the-art performance in sensor simulation, significantly outperforming previous methods when reconstructing static (+2.93 PSNR) and dynamic (+3.70 PSNR) scenes. In addition, to bolster EmerNeRF's semantic generalization, we lift 2D visual foundation model features into 4D space-time and address a general positional bias in modern Transformers, significantly boosting 3D perception performance (e.g., 37.50% relative improvement in occupancy prediction accuracy on average). Finally, we construct a diverse and challenging 120-sequence dataset to benchmark neural fields under extreme and highly-dynamic settings.
PDF151February 7, 2026