EmerNeRF: Descomposición Espacio-Temporal Emergente de Escenas mediante Auto-Supervisión
EmerNeRF: Emergent Spatial-Temporal Scene Decomposition via Self-Supervision
November 3, 2023
Autores: Jiawei Yang, Boris Ivanovic, Or Litany, Xinshuo Weng, Seung Wook Kim, Boyi Li, Tong Che, Danfei Xu, Sanja Fidler, Marco Pavone, Yue Wang
cs.AI
Resumen
Presentamos EmerNeRF, un enfoque simple pero poderoso para aprender representaciones espacio-temporales de escenas dinámicas de conducción. Basado en campos neuronales, EmerNeRF captura simultáneamente la geometría, apariencia, movimiento y semántica de la escena mediante auto-arranque. EmerNeRF se sustenta en dos componentes principales: primero, estratifica las escenas en campos estáticos y dinámicos. Esta descomposición surge puramente de la auto-supervisión, permitiendo que nuestro modelo aprenda de fuentes de datos generales y en entornos reales. Segundo, EmerNeRF parametriza un campo de flujo inducido a partir del campo dinámico y utiliza este campo de flujo para agregar características multi-fotograma, amplificando la precisión de renderizado de objetos dinámicos. La combinación de estos tres campos (estático, dinámico y flujo) permite a EmerNeRF representar escenas altamente dinámicas de manera autosuficiente, sin depender de anotaciones de objetos de verdad terreno o modelos preentrenados para segmentación de objetos dinámicos o estimación de flujo óptico. Nuestro método logra un rendimiento de vanguardia en simulación de sensores, superando significativamente a métodos anteriores en la reconstrucción de escenas estáticas (+2.93 PSNR) y dinámicas (+3.70 PSNR). Además, para fortalecer la generalización semántica de EmerNeRF, elevamos características de modelos visuales fundacionales 2D al espacio-tiempo 4D y abordamos un sesgo posicional general en los Transformers modernos, mejorando significativamente el rendimiento de percepción 3D (por ejemplo, un 37.50% de mejora relativa en la precisión de predicción de ocupación en promedio). Finalmente, construimos un conjunto de datos diverso y desafiante de 120 secuencias para evaluar campos neuronales en configuraciones extremas y altamente dinámicas.
English
We present EmerNeRF, a simple yet powerful approach for learning
spatial-temporal representations of dynamic driving scenes. Grounded in neural
fields, EmerNeRF simultaneously captures scene geometry, appearance, motion,
and semantics via self-bootstrapping. EmerNeRF hinges upon two core components:
First, it stratifies scenes into static and dynamic fields. This decomposition
emerges purely from self-supervision, enabling our model to learn from general,
in-the-wild data sources. Second, EmerNeRF parameterizes an induced flow field
from the dynamic field and uses this flow field to further aggregate
multi-frame features, amplifying the rendering precision of dynamic objects.
Coupling these three fields (static, dynamic, and flow) enables EmerNeRF to
represent highly-dynamic scenes self-sufficiently, without relying on ground
truth object annotations or pre-trained models for dynamic object segmentation
or optical flow estimation. Our method achieves state-of-the-art performance in
sensor simulation, significantly outperforming previous methods when
reconstructing static (+2.93 PSNR) and dynamic (+3.70 PSNR) scenes. In
addition, to bolster EmerNeRF's semantic generalization, we lift 2D visual
foundation model features into 4D space-time and address a general positional
bias in modern Transformers, significantly boosting 3D perception performance
(e.g., 37.50% relative improvement in occupancy prediction accuracy on
average). Finally, we construct a diverse and challenging 120-sequence dataset
to benchmark neural fields under extreme and highly-dynamic settings.