EmerNeRF: Scomposizione Spazio-Temporale Emergente della Scena tramite Auto-Supervisione

Abstract

Presentiamo EmerNeRF, un approccio semplice ma potente per l'apprendimento di rappresentazioni spazio-temporali di scene dinamiche di guida. Basato su campi neurali, EmerNeRF cattura simultaneamente la geometria della scena, l'aspetto, il movimento e la semantica attraverso un processo di auto-avviamento. EmerNeRF si fonda su due componenti principali: in primo luogo, stratifica le scene in campi statici e dinamici. Questa scomposizione emerge puramente dall'auto-supervisione, consentendo al nostro modello di apprendere da fonti di dati generali e non controllate. In secondo luogo, EmerNeRF parametrizza un campo di flusso indotto dal campo dinamico e utilizza questo campo di flusso per aggregare ulteriormente le caratteristiche multi-frame, amplificando la precisione di rendering degli oggetti dinamici. L'accoppiamento di questi tre campi (statico, dinamico e di flusso) consente a EmerNeRF di rappresentare scene altamente dinamiche in modo autonomo, senza fare affidamento su annotazioni di oggetti di verità fondamentale o modelli pre-addestrati per la segmentazione di oggetti dinamici o la stima del flusso ottico. Il nostro metodo raggiunge prestazioni all'avanguardia nella simulazione di sensori, superando significativamente i metodi precedenti nella ricostruzione di scene statiche (+2.93 PSNR) e dinamiche (+3.70 PSNR). Inoltre, per rafforzare la generalizzazione semantica di EmerNeRF, solleviamo le caratteristiche di un modello visivo di fondazione 2D nello spazio-tempo 4D e affrontiamo un bias posizionale generale nei moderni Transformer, migliorando significativamente le prestazioni di percezione 3D (ad esempio, un miglioramento relativo del 37.50% nell'accuratezza della previsione di occupazione in media). Infine, costruiamo un dataset diversificato e impegnativo composto da 120 sequenze per valutare i campi neurali in contesti estremi e altamente dinamici.

English

We present EmerNeRF, a simple yet powerful approach for learning spatial-temporal representations of dynamic driving scenes. Grounded in neural fields, EmerNeRF simultaneously captures scene geometry, appearance, motion, and semantics via self-bootstrapping. EmerNeRF hinges upon two core components: First, it stratifies scenes into static and dynamic fields. This decomposition emerges purely from self-supervision, enabling our model to learn from general, in-the-wild data sources. Second, EmerNeRF parameterizes an induced flow field from the dynamic field and uses this flow field to further aggregate multi-frame features, amplifying the rendering precision of dynamic objects. Coupling these three fields (static, dynamic, and flow) enables EmerNeRF to represent highly-dynamic scenes self-sufficiently, without relying on ground truth object annotations or pre-trained models for dynamic object segmentation or optical flow estimation. Our method achieves state-of-the-art performance in sensor simulation, significantly outperforming previous methods when reconstructing static (+2.93 PSNR) and dynamic (+3.70 PSNR) scenes. In addition, to bolster EmerNeRF's semantic generalization, we lift 2D visual foundation model features into 4D space-time and address a general positional bias in modern Transformers, significantly boosting 3D perception performance (e.g., 37.50% relative improvement in occupancy prediction accuracy on average). Finally, we construct a diverse and challenging 120-sequence dataset to benchmark neural fields under extreme and highly-dynamic settings.

EmerNeRF: Scomposizione Spazio-Temporale Emergente della Scena tramite Auto-Supervisione

EmerNeRF: Emergent Spatial-Temporal Scene Decomposition via Self-Supervision

Abstract

Support