NeRF-MAE : Autoencodeurs masqués pour l'apprentissage auto-supervisé de représentations 3D dans les champs de radiance neuronaux
NeRF-MAE: Masked AutoEncoders for Self-Supervised 3D Representation Learning for Neural Radiance Fields
April 1, 2024
Auteurs: Muhammad Zubair Irshad, Sergey Zakharov, Vitor Guizilini, Adrien Gaidon, Zsolt Kira, Rares Ambrus
cs.AI
Résumé
Les champs neuronaux excellent en vision par ordinateur et en robotique grâce à leur capacité à comprendre le monde visuel en 3D, comme l'inférence de sémantique, de géométrie et de dynamique. Étant donné les capacités des champs neuronaux à représenter de manière dense une scène 3D à partir d'images 2D, nous posons la question suivante : pouvons-nous mettre à l'échelle leur pré-entraînement auto-supervisé, en utilisant spécifiquement des autoencodeurs masqués, pour générer des représentations 3D efficaces à partir d'images RGB posées ? Grâce au succès impressionnant de l'extension des transformers à de nouvelles modalités de données, nous utilisons des Vision Transformers 3D standard pour s'adapter à la formulation unique des NeRFs. Nous exploitons la grille volumétrique de NeRF comme entrée dense pour le transformer, en la contrastant avec d'autres représentations 3D telles que les nuages de points où la densité d'information peut être inégale et la représentation irrégulière. En raison de la difficulté d'appliquer des autoencodeurs masqués à une représentation implicite, comme NeRF, nous optons pour l'extraction d'une représentation explicite qui canonise les scènes à travers les domaines en utilisant la trajectoire de la caméra pour l'échantillonnage. Notre objectif est rendu possible en masquant des patches aléatoires de la grille de radiance et de densité de NeRF et en utilisant un Swin Transformer 3D standard pour reconstruire les patches masqués. Ce faisant, le modèle peut apprendre la structure sémantique et spatiale de scènes complètes. Nous pré-entraînons cette représentation à grande échelle sur notre ensemble de données proposé d'images RGB posées, totalisant plus de 1,8 million d'images. Une fois pré-entraîné, l'encodeur est utilisé pour un transfert d'apprentissage 3D efficace. Notre nouveau pré-entraînement auto-supervisé pour les NeRFs, NeRF-MAE, s'adapte remarquablement bien et améliore les performances sur diverses tâches 3D complexes. En utilisant des données 2D posées non étiquetées pour le pré-entraînement, NeRF-MAE surpasse significativement le pré-entraînement 3D auto-supervisé et les bases de compréhension de scènes NeRF sur les ensembles de données Front3D et ScanNet avec une amélioration absolue des performances de plus de 20% AP50 et 8% AP25 pour la détection d'objets 3D.
English
Neural fields excel in computer vision and robotics due to their ability to
understand the 3D visual world such as inferring semantics, geometry, and
dynamics. Given the capabilities of neural fields in densely representing a 3D
scene from 2D images, we ask the question: Can we scale their self-supervised
pretraining, specifically using masked autoencoders, to generate effective 3D
representations from posed RGB images. Owing to the astounding success of
extending transformers to novel data modalities, we employ standard 3D Vision
Transformers to suit the unique formulation of NeRFs. We leverage NeRF's
volumetric grid as a dense input to the transformer, contrasting it with other
3D representations such as pointclouds where the information density can be
uneven, and the representation is irregular. Due to the difficulty of applying
masked autoencoders to an implicit representation, such as NeRF, we opt for
extracting an explicit representation that canonicalizes scenes across domains
by employing the camera trajectory for sampling. Our goal is made possible by
masking random patches from NeRF's radiance and density grid and employing a
standard 3D Swin Transformer to reconstruct the masked patches. In doing so,
the model can learn the semantic and spatial structure of complete scenes. We
pretrain this representation at scale on our proposed curated posed-RGB data,
totaling over 1.8 million images. Once pretrained, the encoder is used for
effective 3D transfer learning. Our novel self-supervised pretraining for
NeRFs, NeRF-MAE, scales remarkably well and improves performance on various
challenging 3D tasks. Utilizing unlabeled posed 2D data for pretraining,
NeRF-MAE significantly outperforms self-supervised 3D pretraining and NeRF
scene understanding baselines on Front3D and ScanNet datasets with an absolute
performance improvement of over 20% AP50 and 8% AP25 for 3D object detection.Summary
AI-Generated Summary