ChatPaper.aiChatPaper

EmerNeRF:自己監督による時空間シーン分解の創発

EmerNeRF: Emergent Spatial-Temporal Scene Decomposition via Self-Supervision

November 3, 2023
著者: Jiawei Yang, Boris Ivanovic, Or Litany, Xinshuo Weng, Seung Wook Kim, Boyi Li, Tong Che, Danfei Xu, Sanja Fidler, Marco Pavone, Yue Wang
cs.AI

要旨

本論文では、動的な運転シーンの空間-時間表現を学習するためのシンプルかつ強力なアプローチであるEmerNeRFを提案する。ニューラルフィールドに基づくEmerNeRFは、自己ブートストラップを通じてシーンの幾何学、外観、動き、および意味論を同時に捉える。EmerNeRFは2つの核心コンポーネントに依存している。第一に、シーンを静的フィールドと動的フィールドに階層化する。この分解は純粋に自己教師あり学習から生じ、一般的な実世界データソースから学習することを可能にする。第二に、EmerNeRFは動的フィールドから誘導されたフローフィールドをパラメータ化し、このフローフィールドを使用してマルチフレーム特徴をさらに集約し、動的オブジェクトのレンダリング精度を向上させる。これら3つのフィールド(静的、動的、フロー)を組み合わせることで、EmerNeRFは動的オブジェクトのセグメンテーションやオプティカルフロー推定のための教師データや事前学習モデルに依存することなく、高度に動的なシーンを自己完結的に表現できる。本手法はセンサーシミュレーションにおいて最先端の性能を達成し、静的シーン(+2.93 PSNR)と動的シーン(+3.70 PSNR)の再構築において従来手法を大幅に上回る。さらに、EmerNeRFの意味論的汎化能力を強化するため、2D視覚基盤モデルの特徴を4D時空間にリフトし、現代のTransformerにおける一般的な位置バイアスに対処することで、3D知覚性能を大幅に向上させる(例:占有予測精度で平均37.50%の相対的改善)。最後に、極端で高度に動的な設定下でのニューラルフィールドをベンチマークするため、多様で挑戦的な120シーケンスのデータセットを構築した。
English
We present EmerNeRF, a simple yet powerful approach for learning spatial-temporal representations of dynamic driving scenes. Grounded in neural fields, EmerNeRF simultaneously captures scene geometry, appearance, motion, and semantics via self-bootstrapping. EmerNeRF hinges upon two core components: First, it stratifies scenes into static and dynamic fields. This decomposition emerges purely from self-supervision, enabling our model to learn from general, in-the-wild data sources. Second, EmerNeRF parameterizes an induced flow field from the dynamic field and uses this flow field to further aggregate multi-frame features, amplifying the rendering precision of dynamic objects. Coupling these three fields (static, dynamic, and flow) enables EmerNeRF to represent highly-dynamic scenes self-sufficiently, without relying on ground truth object annotations or pre-trained models for dynamic object segmentation or optical flow estimation. Our method achieves state-of-the-art performance in sensor simulation, significantly outperforming previous methods when reconstructing static (+2.93 PSNR) and dynamic (+3.70 PSNR) scenes. In addition, to bolster EmerNeRF's semantic generalization, we lift 2D visual foundation model features into 4D space-time and address a general positional bias in modern Transformers, significantly boosting 3D perception performance (e.g., 37.50% relative improvement in occupancy prediction accuracy on average). Finally, we construct a diverse and challenging 120-sequence dataset to benchmark neural fields under extreme and highly-dynamic settings.
PDF161December 15, 2024