NeRF-MAE: Autoencoder Mascherati per l'Apprendimento Autosupervisionato di Rappresentazioni 3D nei Campi di Radianza Neurale
NeRF-MAE: Masked AutoEncoders for Self-Supervised 3D Representation Learning for Neural Radiance Fields
April 1, 2024
Autori: Muhammad Zubair Irshad, Sergey Zakharov, Vitor Guizilini, Adrien Gaidon, Zsolt Kira, Rares Ambrus
cs.AI
Abstract
I campi neurali eccellono nella visione artificiale e nella robotica grazie alla loro capacità di comprendere il mondo visivo 3D, come dedurre la semantica, la geometria e la dinamica. Date le capacità dei campi neurali nel rappresentare densamente una scena 3D a partire da immagini 2D, ci poniamo la domanda: possiamo scalare il loro pre-addestramento auto-supervisionato, in particolare utilizzando autoencoder mascherati, per generare rappresentazioni 3D efficaci da immagini RGB con pose? Grazie al sorprendente successo nell'estendere i transformer a nuove modalità di dati, impieghiamo i Vision Transformer 3D standard per adattarli alla formulazione unica dei NeRF. Sfruttiamo la griglia volumetrica di NeRF come input denso per il transformer, contrapponendola ad altre rappresentazioni 3D come le nuvole di punti, dove la densità delle informazioni può essere disomogenea e la rappresentazione è irregolare. A causa della difficoltà di applicare autoencoder mascherati a una rappresentazione implicita, come NeRF, optiamo per estrarre una rappresentazione esplicita che canonizza le scene tra diversi domini utilizzando la traiettoria della fotocamera per il campionamento. Il nostro obiettivo è reso possibile mascherando patch casuali dalla griglia di radianza e densità di NeRF e impiegando un 3D Swin Transformer standard per ricostruire le patch mascherate. In questo modo, il modello può apprendere la struttura semantica e spaziale di scene complete. Pre-addestriamo questa rappresentazione su larga scala sui nostri dati proposti di immagini RGB con pose, per un totale di oltre 1,8 milioni di immagini. Una volta pre-addestrato, l'encoder viene utilizzato per un efficace trasferimento di apprendimento 3D. Il nostro nuovo pre-addestramento auto-supervisionato per NeRF, NeRF-MAE, scala in modo notevole e migliora le prestazioni su varie attività 3D impegnative. Utilizzando dati 2D con pose non etichettati per il pre-addestramento, NeRF-MAE supera significativamente il pre-addestramento 3D auto-supervisionato e le baseline di comprensione delle scene NeRF sui dataset Front3D e ScanNet, con un miglioramento assoluto delle prestazioni di oltre il 20% AP50 e l'8% AP25 per la rilevazione di oggetti 3D.
English
Neural fields excel in computer vision and robotics due to their ability to
understand the 3D visual world such as inferring semantics, geometry, and
dynamics. Given the capabilities of neural fields in densely representing a 3D
scene from 2D images, we ask the question: Can we scale their self-supervised
pretraining, specifically using masked autoencoders, to generate effective 3D
representations from posed RGB images. Owing to the astounding success of
extending transformers to novel data modalities, we employ standard 3D Vision
Transformers to suit the unique formulation of NeRFs. We leverage NeRF's
volumetric grid as a dense input to the transformer, contrasting it with other
3D representations such as pointclouds where the information density can be
uneven, and the representation is irregular. Due to the difficulty of applying
masked autoencoders to an implicit representation, such as NeRF, we opt for
extracting an explicit representation that canonicalizes scenes across domains
by employing the camera trajectory for sampling. Our goal is made possible by
masking random patches from NeRF's radiance and density grid and employing a
standard 3D Swin Transformer to reconstruct the masked patches. In doing so,
the model can learn the semantic and spatial structure of complete scenes. We
pretrain this representation at scale on our proposed curated posed-RGB data,
totaling over 1.8 million images. Once pretrained, the encoder is used for
effective 3D transfer learning. Our novel self-supervised pretraining for
NeRFs, NeRF-MAE, scales remarkably well and improves performance on various
challenging 3D tasks. Utilizing unlabeled posed 2D data for pretraining,
NeRF-MAE significantly outperforms self-supervised 3D pretraining and NeRF
scene understanding baselines on Front3D and ScanNet datasets with an absolute
performance improvement of over 20% AP50 and 8% AP25 for 3D object detection.