NeRF-MAE: 신경 방사 필드(Neural Radiance Fields)를 위한 자기 지도 3D 표현 학습을 위한 마스크드 오토인코더
NeRF-MAE: Masked AutoEncoders for Self-Supervised 3D Representation Learning for Neural Radiance Fields
April 1, 2024
저자: Muhammad Zubair Irshad, Sergey Zakharov, Vitor Guizilini, Adrien Gaidon, Zsolt Kira, Rares Ambrus
cs.AI
초록
신경 필드(Neural Fields)는 의미론, 기하학, 동역학 등을 추론하는 3D 시각 세계를 이해하는 능력 덕분에 컴퓨터 비전과 로보틱스 분야에서 뛰어난 성과를 보여줍니다. 신경 필드가 2D 이미지로부터 3D 장면을 밀집하게 표현할 수 있는 능력을 고려할 때, 우리는 다음과 같은 질문을 던집니다: 마스크드 오토인코더를 사용하여 포즈가 지정된 RGB 이미지로부터 효과적인 3D 표현을 생성하기 위해 신경 필드의 자기 지도 사전 학습을 확장할 수 있을까요? 트랜스포머를 새로운 데이터 모달리티로 확장한 놀라운 성공에 힘입어, 우리는 NeRF의 독특한 공식화에 적합하도록 표준 3D Vision Transformer를 사용합니다. 우리는 NeRF의 볼륨 그리드를 트랜스포머의 밀집 입력으로 활용하며, 이는 정보 밀도가 불균일하고 표현이 불규칙할 수 있는 포인트 클라우드와 같은 다른 3D 표현과 대조됩니다. NeRF와 같은 암묵적 표현에 마스크드 오토인코더를 적용하는 어려움 때문에, 우리는 카메라 궤적을 사용하여 샘플링함으로써 도메인 간 장면을 정규화하는 명시적 표현을 추출하는 방법을 선택합니다. 우리의 목표는 NeRF의 복사도와 밀도 그리드에서 무작위 패치를 마스킹하고 표준 3D Swin Transformer를 사용하여 마스킹된 패치를 재구성함으로써 달성할 수 있습니다. 이를 통해 모델은 전체 장면의 의미론적 및 공간적 구조를 학습할 수 있습니다. 우리는 제안한 포즈가 지정된 RGB 데이터 세트에서 총 180만 장 이상의 이미지를 사용하여 이 표현을 대규모로 사전 학습합니다. 사전 학습이 완료되면, 인코더는 효과적인 3D 전이 학습에 사용됩니다. 우리의 새로운 자기 지도 사전 학습 방법인 NeRF-MAE는 NeRF를 위해 확장성이 뛰어나며 다양한 도전적인 3D 작업에서 성능을 향상시킵니다. 레이블이 없는 포즈가 지정된 2D 데이터를 사전 학습에 활용함으로써, NeRF-MAE는 Front3D 및 ScanNet 데이터셋에서 자기 지도 3D 사전 학습 및 NeRF 장면 이해 베이스라인을 크게 능가하며, 3D 객체 탐지에서 AP50 기준 20% 이상, AP25 기준 8%의 절대적 성능 향상을 보여줍니다.
English
Neural fields excel in computer vision and robotics due to their ability to
understand the 3D visual world such as inferring semantics, geometry, and
dynamics. Given the capabilities of neural fields in densely representing a 3D
scene from 2D images, we ask the question: Can we scale their self-supervised
pretraining, specifically using masked autoencoders, to generate effective 3D
representations from posed RGB images. Owing to the astounding success of
extending transformers to novel data modalities, we employ standard 3D Vision
Transformers to suit the unique formulation of NeRFs. We leverage NeRF's
volumetric grid as a dense input to the transformer, contrasting it with other
3D representations such as pointclouds where the information density can be
uneven, and the representation is irregular. Due to the difficulty of applying
masked autoencoders to an implicit representation, such as NeRF, we opt for
extracting an explicit representation that canonicalizes scenes across domains
by employing the camera trajectory for sampling. Our goal is made possible by
masking random patches from NeRF's radiance and density grid and employing a
standard 3D Swin Transformer to reconstruct the masked patches. In doing so,
the model can learn the semantic and spatial structure of complete scenes. We
pretrain this representation at scale on our proposed curated posed-RGB data,
totaling over 1.8 million images. Once pretrained, the encoder is used for
effective 3D transfer learning. Our novel self-supervised pretraining for
NeRFs, NeRF-MAE, scales remarkably well and improves performance on various
challenging 3D tasks. Utilizing unlabeled posed 2D data for pretraining,
NeRF-MAE significantly outperforms self-supervised 3D pretraining and NeRF
scene understanding baselines on Front3D and ScanNet datasets with an absolute
performance improvement of over 20% AP50 and 8% AP25 for 3D object detection.Summary
AI-Generated Summary