NeRF-MAE: ニューラルラジアンスフィールドのための自己教師あり3D表現学習におけるマスクドオートエンコーダ
NeRF-MAE: Masked AutoEncoders for Self-Supervised 3D Representation Learning for Neural Radiance Fields
April 1, 2024
著者: Muhammad Zubair Irshad, Sergey Zakharov, Vitor Guizilini, Adrien Gaidon, Zsolt Kira, Rares Ambrus
cs.AI
要旨
ニューラルフィールドは、セマンティクス、ジオメトリ、ダイナミクスを推論するなど、3D視覚世界を理解する能力により、コンピュータビジョンとロボティクスにおいて優れた性能を発揮します。2D画像から3Dシーンを密に表現するニューラルフィールドの能力を踏まえ、我々は次の疑問を投げかけます:マスクドオートエンコーダを用いて、特にポーズ付きRGB画像から効果的な3D表現を生成するために、それらの自己教師あり事前学習をスケールアップできるか?トランスフォーマーを新しいデータモダリティに拡張する驚異的な成功を受けて、我々は標準的な3D Vision TransformersをNeRFの独特な定式化に適合させることを試みます。NeRFのボリュメトリックグリッドをトランスフォーマーへの密な入力として活用し、情報密度が不均一で表現が不規則な点群などの他の3D表現と対比します。NeRFのような暗黙的表現にマスクドオートエンコーダを適用する難しさから、我々はカメラ軌道を用いてサンプリングすることでドメイン間でシーンを正規化する明示的表現を抽出することを選択します。我々の目標は、NeRFの放射輝度と密度グリッドからランダムなパッチをマスキングし、標準的な3D Swin Transformerを用いてマスクされたパッチを再構築することで達成されます。これにより、モデルは完全なシーンのセマンティックおよび空間構造を学習することができます。我々は、提案したキュレーションされたポーズ付きRGBデータ(合計180万枚以上の画像)でこの表現を大規模に事前学習します。事前学習後、エンコーダは効果的な3D転移学習に使用されます。我々の新しいNeRFの自己教師あり事前学習手法、NeRF-MAEは、驚くほどよくスケールし、さまざまな困難な3Dタスクで性能を向上させます。ラベルなしのポーズ付き2Dデータを事前学習に活用することで、NeRF-MAEはFront3DおよびScanNetデータセットにおいて、自己教師あり3D事前学習およびNeRFシーン理解ベースラインを大幅に上回り、3D物体検出においてAP50で20%以上、AP25で8%の絶対的性能向上を達成します。
English
Neural fields excel in computer vision and robotics due to their ability to
understand the 3D visual world such as inferring semantics, geometry, and
dynamics. Given the capabilities of neural fields in densely representing a 3D
scene from 2D images, we ask the question: Can we scale their self-supervised
pretraining, specifically using masked autoencoders, to generate effective 3D
representations from posed RGB images. Owing to the astounding success of
extending transformers to novel data modalities, we employ standard 3D Vision
Transformers to suit the unique formulation of NeRFs. We leverage NeRF's
volumetric grid as a dense input to the transformer, contrasting it with other
3D representations such as pointclouds where the information density can be
uneven, and the representation is irregular. Due to the difficulty of applying
masked autoencoders to an implicit representation, such as NeRF, we opt for
extracting an explicit representation that canonicalizes scenes across domains
by employing the camera trajectory for sampling. Our goal is made possible by
masking random patches from NeRF's radiance and density grid and employing a
standard 3D Swin Transformer to reconstruct the masked patches. In doing so,
the model can learn the semantic and spatial structure of complete scenes. We
pretrain this representation at scale on our proposed curated posed-RGB data,
totaling over 1.8 million images. Once pretrained, the encoder is used for
effective 3D transfer learning. Our novel self-supervised pretraining for
NeRFs, NeRF-MAE, scales remarkably well and improves performance on various
challenging 3D tasks. Utilizing unlabeled posed 2D data for pretraining,
NeRF-MAE significantly outperforms self-supervised 3D pretraining and NeRF
scene understanding baselines on Front3D and ScanNet datasets with an absolute
performance improvement of over 20% AP50 and 8% AP25 for 3D object detection.Summary
AI-Generated Summary