EmerNeRF: Decomposição Espaço-Temporal Emergente de Cenas via Auto-Supervisão
EmerNeRF: Emergent Spatial-Temporal Scene Decomposition via Self-Supervision
November 3, 2023
Autores: Jiawei Yang, Boris Ivanovic, Or Litany, Xinshuo Weng, Seung Wook Kim, Boyi Li, Tong Che, Danfei Xu, Sanja Fidler, Marco Pavone, Yue Wang
cs.AI
Resumo
Apresentamos o EmerNeRF, uma abordagem simples, porém poderosa, para aprender representações espaço-temporais de cenas dinâmicas de direção. Baseado em campos neurais, o EmerNeRF captura simultaneamente a geometria da cena, aparência, movimento e semântica por meio de autoinicialização. O EmerNeRF depende de dois componentes principais: primeiro, ele estratifica as cenas em campos estáticos e dinâmicos. Essa decomposição emerge puramente da auto-supervisão, permitindo que nosso modelo aprenda a partir de fontes de dados gerais e não controladas. Segundo, o EmerNeRF parametriza um campo de fluxo induzido a partir do campo dinâmico e usa esse campo de fluxo para agregar ainda mais características de múltiplos quadros, ampliando a precisão de renderização de objetos dinâmicos. O acoplamento desses três campos (estático, dinâmico e de fluxo) permite que o EmerNeRF represente cenas altamente dinâmicas de forma autossuficiente, sem depender de anotações de objetos com verdade terrestre ou modelos pré-treinados para segmentação de objetos dinâmicos ou estimativa de fluxo óptico. Nosso método alcança desempenho de ponta em simulação de sensores, superando significativamente métodos anteriores na reconstrução de cenas estáticas (+2,93 PSNR) e dinâmicas (+3,70 PSNR). Além disso, para fortalecer a generalização semântica do EmerNeRF, elevamos características de modelos visuais fundamentais 2D para o espaço-tempo 4D e abordamos um viés posicional geral em Transformers modernos, aumentando significativamente o desempenho da percepção 3D (por exemplo, 37,50% de melhoria relativa na precisão de previsão de ocupação em média). Por fim, construímos um conjunto de dados diversificado e desafiador com 120 sequências para avaliar campos neurais em cenários extremos e altamente dinâmicos.
English
We present EmerNeRF, a simple yet powerful approach for learning
spatial-temporal representations of dynamic driving scenes. Grounded in neural
fields, EmerNeRF simultaneously captures scene geometry, appearance, motion,
and semantics via self-bootstrapping. EmerNeRF hinges upon two core components:
First, it stratifies scenes into static and dynamic fields. This decomposition
emerges purely from self-supervision, enabling our model to learn from general,
in-the-wild data sources. Second, EmerNeRF parameterizes an induced flow field
from the dynamic field and uses this flow field to further aggregate
multi-frame features, amplifying the rendering precision of dynamic objects.
Coupling these three fields (static, dynamic, and flow) enables EmerNeRF to
represent highly-dynamic scenes self-sufficiently, without relying on ground
truth object annotations or pre-trained models for dynamic object segmentation
or optical flow estimation. Our method achieves state-of-the-art performance in
sensor simulation, significantly outperforming previous methods when
reconstructing static (+2.93 PSNR) and dynamic (+3.70 PSNR) scenes. In
addition, to bolster EmerNeRF's semantic generalization, we lift 2D visual
foundation model features into 4D space-time and address a general positional
bias in modern Transformers, significantly boosting 3D perception performance
(e.g., 37.50% relative improvement in occupancy prediction accuracy on
average). Finally, we construct a diverse and challenging 120-sequence dataset
to benchmark neural fields under extreme and highly-dynamic settings.