ChatPaper.aiChatPaper

EmerNeRF: Scomposizione Spazio-Temporale Emergente della Scena tramite Auto-Supervisione

EmerNeRF: Emergent Spatial-Temporal Scene Decomposition via Self-Supervision

November 3, 2023
Autori: Jiawei Yang, Boris Ivanovic, Or Litany, Xinshuo Weng, Seung Wook Kim, Boyi Li, Tong Che, Danfei Xu, Sanja Fidler, Marco Pavone, Yue Wang
cs.AI

Abstract

Presentiamo EmerNeRF, un approccio semplice ma potente per l'apprendimento di rappresentazioni spazio-temporali di scene dinamiche di guida. Basato su campi neurali, EmerNeRF cattura simultaneamente la geometria della scena, l'aspetto, il movimento e la semantica attraverso un processo di auto-avviamento. EmerNeRF si fonda su due componenti principali: in primo luogo, stratifica le scene in campi statici e dinamici. Questa scomposizione emerge puramente dall'auto-supervisione, consentendo al nostro modello di apprendere da fonti di dati generali e non controllate. In secondo luogo, EmerNeRF parametrizza un campo di flusso indotto dal campo dinamico e utilizza questo campo di flusso per aggregare ulteriormente le caratteristiche multi-frame, amplificando la precisione di rendering degli oggetti dinamici. L'accoppiamento di questi tre campi (statico, dinamico e di flusso) consente a EmerNeRF di rappresentare scene altamente dinamiche in modo autonomo, senza fare affidamento su annotazioni di oggetti di verità fondamentale o modelli pre-addestrati per la segmentazione di oggetti dinamici o la stima del flusso ottico. Il nostro metodo raggiunge prestazioni all'avanguardia nella simulazione di sensori, superando significativamente i metodi precedenti nella ricostruzione di scene statiche (+2.93 PSNR) e dinamiche (+3.70 PSNR). Inoltre, per rafforzare la generalizzazione semantica di EmerNeRF, solleviamo le caratteristiche di un modello visivo di fondazione 2D nello spazio-tempo 4D e affrontiamo un bias posizionale generale nei moderni Transformer, migliorando significativamente le prestazioni di percezione 3D (ad esempio, un miglioramento relativo del 37.50% nell'accuratezza della previsione di occupazione in media). Infine, costruiamo un dataset diversificato e impegnativo composto da 120 sequenze per valutare i campi neurali in contesti estremi e altamente dinamici.
English
We present EmerNeRF, a simple yet powerful approach for learning spatial-temporal representations of dynamic driving scenes. Grounded in neural fields, EmerNeRF simultaneously captures scene geometry, appearance, motion, and semantics via self-bootstrapping. EmerNeRF hinges upon two core components: First, it stratifies scenes into static and dynamic fields. This decomposition emerges purely from self-supervision, enabling our model to learn from general, in-the-wild data sources. Second, EmerNeRF parameterizes an induced flow field from the dynamic field and uses this flow field to further aggregate multi-frame features, amplifying the rendering precision of dynamic objects. Coupling these three fields (static, dynamic, and flow) enables EmerNeRF to represent highly-dynamic scenes self-sufficiently, without relying on ground truth object annotations or pre-trained models for dynamic object segmentation or optical flow estimation. Our method achieves state-of-the-art performance in sensor simulation, significantly outperforming previous methods when reconstructing static (+2.93 PSNR) and dynamic (+3.70 PSNR) scenes. In addition, to bolster EmerNeRF's semantic generalization, we lift 2D visual foundation model features into 4D space-time and address a general positional bias in modern Transformers, significantly boosting 3D perception performance (e.g., 37.50% relative improvement in occupancy prediction accuracy on average). Finally, we construct a diverse and challenging 120-sequence dataset to benchmark neural fields under extreme and highly-dynamic settings.
PDF151February 7, 2026