NeRF-MAE: Gemaskeerde AutoEncoders voor Zelfsupervisie in 3D Representatie Leren voor Neural Radiance Fields
NeRF-MAE: Masked AutoEncoders for Self-Supervised 3D Representation Learning for Neural Radiance Fields
April 1, 2024
Auteurs: Muhammad Zubair Irshad, Sergey Zakharov, Vitor Guizilini, Adrien Gaidon, Zsolt Kira, Rares Ambrus
cs.AI
Samenvatting
Neurale velden blinken uit in computervisie en robotica vanwege hun vermogen om de 3D-visuele wereld te begrijpen, zoals het afleiden van semantiek, geometrie en dynamica. Gezien de mogelijkheden van neurale velden om een 3D-scène dicht te representeren vanuit 2D-beelden, stellen we de vraag: Kunnen we hun zelfgesuperviseerde voorafgaande training opschalen, specifiek door gebruik te maken van gemaskeerde auto-encoders, om effectieve 3D-representaties te genereren uit gepositioneerde RGB-beelden? Vanwege het verbluffende succes van het uitbreiden van transformers naar nieuwe datamodaliteiten, gebruiken we standaard 3D Vision Transformers om aan te sluiten bij de unieke formulering van NeRFs. We benutten het volumetrische raster van NeRF als een dichte invoer voor de transformer, in contrast met andere 3D-representaties zoals puntenwolken waar de informatiedichtheid ongelijk kan zijn en de representatie onregelmatig is. Vanwege de moeilijkheid om gemaskeerde auto-encoders toe te passen op een impliciete representatie, zoals NeRF, kiezen we ervoor om een expliciete representatie te extraheren die scènes over domeinen heen kanoniseren door gebruik te maken van de cameratrajecorie voor bemonstering. Ons doel wordt mogelijk gemaakt door willekeurige patches te maskeren uit het stralings- en dichtheidsraster van NeRF en een standaard 3D Swin Transformer te gebruiken om de gemaskeerde patches te reconstrueren. Hierdoor kan het model de semantische en ruimtelijke structuur van complete scènes leren. We trainen deze representatie op grote schaal vooraf op onze voorgestelde gecureerde gepositioneerde RGB-data, in totaal meer dan 1,8 miljoen beelden. Eenmaal voorgetraind, wordt de encoder gebruikt voor effectief 3D-transferleren. Onze nieuwe zelfgesuperviseerde voorafgaande training voor NeRFs, NeRF-MAE, schaalt opmerkelijk goed en verbetert de prestaties op verschillende uitdagende 3D-taken. Door gebruik te maken van ongelabelde gepositioneerde 2D-data voor voorafgaande training, presteert NeRF-MAE aanzienlijk beter dan zelfgesuperviseerde 3D-voorafgaande training en NeRF-scènebegrip-baselines op de Front3D- en ScanNet-datasets met een absolute prestatieverbetering van meer dan 20% AP50 en 8% AP25 voor 3D-objectdetectie.
English
Neural fields excel in computer vision and robotics due to their ability to
understand the 3D visual world such as inferring semantics, geometry, and
dynamics. Given the capabilities of neural fields in densely representing a 3D
scene from 2D images, we ask the question: Can we scale their self-supervised
pretraining, specifically using masked autoencoders, to generate effective 3D
representations from posed RGB images. Owing to the astounding success of
extending transformers to novel data modalities, we employ standard 3D Vision
Transformers to suit the unique formulation of NeRFs. We leverage NeRF's
volumetric grid as a dense input to the transformer, contrasting it with other
3D representations such as pointclouds where the information density can be
uneven, and the representation is irregular. Due to the difficulty of applying
masked autoencoders to an implicit representation, such as NeRF, we opt for
extracting an explicit representation that canonicalizes scenes across domains
by employing the camera trajectory for sampling. Our goal is made possible by
masking random patches from NeRF's radiance and density grid and employing a
standard 3D Swin Transformer to reconstruct the masked patches. In doing so,
the model can learn the semantic and spatial structure of complete scenes. We
pretrain this representation at scale on our proposed curated posed-RGB data,
totaling over 1.8 million images. Once pretrained, the encoder is used for
effective 3D transfer learning. Our novel self-supervised pretraining for
NeRFs, NeRF-MAE, scales remarkably well and improves performance on various
challenging 3D tasks. Utilizing unlabeled posed 2D data for pretraining,
NeRF-MAE significantly outperforms self-supervised 3D pretraining and NeRF
scene understanding baselines on Front3D and ScanNet datasets with an absolute
performance improvement of over 20% AP50 and 8% AP25 for 3D object detection.