ChatPaper.aiChatPaper

EmerNeRF: Descomposición Espacio-Temporal Emergente de Escenas mediante Auto-Supervisión

EmerNeRF: Emergent Spatial-Temporal Scene Decomposition via Self-Supervision

November 3, 2023
Autores: Jiawei Yang, Boris Ivanovic, Or Litany, Xinshuo Weng, Seung Wook Kim, Boyi Li, Tong Che, Danfei Xu, Sanja Fidler, Marco Pavone, Yue Wang
cs.AI

Resumen

Presentamos EmerNeRF, un enfoque simple pero poderoso para aprender representaciones espacio-temporales de escenas dinámicas de conducción. Basado en campos neuronales, EmerNeRF captura simultáneamente la geometría, apariencia, movimiento y semántica de la escena mediante auto-arranque. EmerNeRF se sustenta en dos componentes principales: primero, estratifica las escenas en campos estáticos y dinámicos. Esta descomposición surge puramente de la auto-supervisión, permitiendo que nuestro modelo aprenda de fuentes de datos generales y en entornos reales. Segundo, EmerNeRF parametriza un campo de flujo inducido a partir del campo dinámico y utiliza este campo de flujo para agregar características multi-fotograma, amplificando la precisión de renderizado de objetos dinámicos. La combinación de estos tres campos (estático, dinámico y flujo) permite a EmerNeRF representar escenas altamente dinámicas de manera autosuficiente, sin depender de anotaciones de objetos de verdad terreno o modelos preentrenados para segmentación de objetos dinámicos o estimación de flujo óptico. Nuestro método logra un rendimiento de vanguardia en simulación de sensores, superando significativamente a métodos anteriores en la reconstrucción de escenas estáticas (+2.93 PSNR) y dinámicas (+3.70 PSNR). Además, para fortalecer la generalización semántica de EmerNeRF, elevamos características de modelos visuales fundacionales 2D al espacio-tiempo 4D y abordamos un sesgo posicional general en los Transformers modernos, mejorando significativamente el rendimiento de percepción 3D (por ejemplo, un 37.50% de mejora relativa en la precisión de predicción de ocupación en promedio). Finalmente, construimos un conjunto de datos diverso y desafiante de 120 secuencias para evaluar campos neuronales en configuraciones extremas y altamente dinámicas.
English
We present EmerNeRF, a simple yet powerful approach for learning spatial-temporal representations of dynamic driving scenes. Grounded in neural fields, EmerNeRF simultaneously captures scene geometry, appearance, motion, and semantics via self-bootstrapping. EmerNeRF hinges upon two core components: First, it stratifies scenes into static and dynamic fields. This decomposition emerges purely from self-supervision, enabling our model to learn from general, in-the-wild data sources. Second, EmerNeRF parameterizes an induced flow field from the dynamic field and uses this flow field to further aggregate multi-frame features, amplifying the rendering precision of dynamic objects. Coupling these three fields (static, dynamic, and flow) enables EmerNeRF to represent highly-dynamic scenes self-sufficiently, without relying on ground truth object annotations or pre-trained models for dynamic object segmentation or optical flow estimation. Our method achieves state-of-the-art performance in sensor simulation, significantly outperforming previous methods when reconstructing static (+2.93 PSNR) and dynamic (+3.70 PSNR) scenes. In addition, to bolster EmerNeRF's semantic generalization, we lift 2D visual foundation model features into 4D space-time and address a general positional bias in modern Transformers, significantly boosting 3D perception performance (e.g., 37.50% relative improvement in occupancy prediction accuracy on average). Finally, we construct a diverse and challenging 120-sequence dataset to benchmark neural fields under extreme and highly-dynamic settings.
PDF161December 15, 2024