EmerNeRF: Эмерджентная пространственно-временная декомпозиция сцены с использованием самоконтроля
EmerNeRF: Emergent Spatial-Temporal Scene Decomposition via Self-Supervision
November 3, 2023
Авторы: Jiawei Yang, Boris Ivanovic, Or Litany, Xinshuo Weng, Seung Wook Kim, Boyi Li, Tong Che, Danfei Xu, Sanja Fidler, Marco Pavone, Yue Wang
cs.AI
Аннотация
Мы представляем EmerNeRF — простой, но мощный подход для обучения пространственно-временных представлений динамических сцен вождения. Основанный на нейронных полях, EmerNeRF одновременно захватывает геометрию сцены, внешний вид, движение и семантику с помощью самозапускающегося механизма. EmerNeRF опирается на два ключевых компонента: во-первых, он разделяет сцены на статические и динамические поля. Это разложение возникает исключительно за счет самоконтроля, что позволяет нашей модели обучаться на общих, реальных данных. Во-вторых, EmerNeRF параметризует индуцированное поле потока из динамического поля и использует это поле для дальнейшего агрегирования признаков из нескольких кадров, повышая точность рендеринга динамических объектов. Связывание этих трех полей (статического, динамического и потока) позволяет EmerNeRF самостоятельно представлять высокодинамичные сцены, не полагаясь на аннотации объектов с точным разметкой или предобученные модели для сегментации динамических объектов или оценки оптического потока. Наш метод достигает наилучших результатов в симуляции сенсоров, значительно превосходя предыдущие методы при реконструкции статических (+2.93 PSNR) и динамических (+3.70 PSNR) сцен. Кроме того, для усиления семантической обобщаемости EmerNeRF мы переносим признаки 2D визуальных базовых моделей в 4D пространство-время и устраняем общее позиционное смещение в современных трансформерах, что значительно улучшает производительность 3D восприятия (например, относительное улучшение точности предсказания занятости в среднем на 37.50%). Наконец, мы создаем разнообразный и сложный набор данных из 120 последовательностей для тестирования нейронных полей в экстремальных и высокодинамичных условиях.
English
We present EmerNeRF, a simple yet powerful approach for learning
spatial-temporal representations of dynamic driving scenes. Grounded in neural
fields, EmerNeRF simultaneously captures scene geometry, appearance, motion,
and semantics via self-bootstrapping. EmerNeRF hinges upon two core components:
First, it stratifies scenes into static and dynamic fields. This decomposition
emerges purely from self-supervision, enabling our model to learn from general,
in-the-wild data sources. Second, EmerNeRF parameterizes an induced flow field
from the dynamic field and uses this flow field to further aggregate
multi-frame features, amplifying the rendering precision of dynamic objects.
Coupling these three fields (static, dynamic, and flow) enables EmerNeRF to
represent highly-dynamic scenes self-sufficiently, without relying on ground
truth object annotations or pre-trained models for dynamic object segmentation
or optical flow estimation. Our method achieves state-of-the-art performance in
sensor simulation, significantly outperforming previous methods when
reconstructing static (+2.93 PSNR) and dynamic (+3.70 PSNR) scenes. In
addition, to bolster EmerNeRF's semantic generalization, we lift 2D visual
foundation model features into 4D space-time and address a general positional
bias in modern Transformers, significantly boosting 3D perception performance
(e.g., 37.50% relative improvement in occupancy prediction accuracy on
average). Finally, we construct a diverse and challenging 120-sequence dataset
to benchmark neural fields under extreme and highly-dynamic settings.