NeRF-MAE: Maskierte Autoencoder für selbstüberwachtes 3D-Repräsentationslernen für neurale Strahlungsfelder
NeRF-MAE: Masked AutoEncoders for Self-Supervised 3D Representation Learning for Neural Radiance Fields
April 1, 2024
Autoren: Muhammad Zubair Irshad, Sergey Zakharov, Vitor Guizilini, Adrien Gaidon, Zsolt Kira, Rares Ambrus
cs.AI
Zusammenfassung
Neuronale Felder zeichnen sich in der Computer Vision und Robotik durch ihre Fähigkeit aus, die 3D-Visionswelt zu verstehen, indem sie Semantik, Geometrie und Dynamik ableiten. Angesichts der Fähigkeiten neuronaler Felder, eine 3D-Szene dicht aus 2D-Bildern darzustellen, stellen wir die Frage: Können wir ihr selbstüberwachtes Vortraining, insbesondere unter Verwendung von maskierten Autoencodern, skalieren, um effektive 3D-Repräsentationen aus aufgenommenen RGB-Bildern zu generieren? Aufgrund des beeindruckenden Erfolgs der Erweiterung von Transformatoren auf neue Datenmodalitäten verwenden wir standardmäßige 3D-Vision-Transformatoren, um der einzigartigen Formulierung von NeRFs gerecht zu werden. Wir nutzen NeRFs volumetrisches Gitter als dichte Eingabe für den Transformer und setzen es von anderen 3D-Repräsentationen wie Punktwolken ab, bei denen die Informationsdichte ungleichmäßig ist und die Repräsentation unregelmäßig ist. Aufgrund der Schwierigkeit, maskierte Autoencoder auf eine implizite Repräsentation wie NeRF anzuwenden, entscheiden wir uns dafür, eine explizite Repräsentation zu extrahieren, die Szenen über Domänen hinweg kanonisiert, indem wir die Kameratrajektorie für die Abtastung verwenden. Unser Ziel wird durch das Maskieren zufälliger Patches aus NeRFs Strahlungs- und Dichtegitter und die Verwendung eines standardmäßigen 3D Swin Transformers zur Rekonstruktion der maskierten Patches erreicht. Auf diese Weise kann das Modell die semantische und räumliche Struktur vollständiger Szenen erlernen. Wir trainieren diese Repräsentation im großen Maßstab an unseren vorgeschlagenen kuratierten aufgenommenen RGB-Daten, die insgesamt über 1,8 Millionen Bilder umfassen. Sobald das Vortraining abgeschlossen ist, wird der Encoder für effektives 3D-Transferlernen verwendet. Unser neuartiges selbstüberwachtes Vortraining für NeRFs, NeRF-MAE, skaliert bemerkenswert gut und verbessert die Leistung bei verschiedenen anspruchsvollen 3D-Aufgaben. Durch die Verwendung von unbeschrifteten aufgenommenen 2D-Daten für das Vortraining übertrifft NeRF-MAE signifikant selbstüberwachtes 3D-Vortraining und NeRF-Szenenverständnis-Baselines auf den Front3D- und ScanNet-Datensätzen mit einer absoluten Leistungssteigerung von über 20% AP50 und 8% AP25 für die 3D-Objekterkennung.
English
Neural fields excel in computer vision and robotics due to their ability to
understand the 3D visual world such as inferring semantics, geometry, and
dynamics. Given the capabilities of neural fields in densely representing a 3D
scene from 2D images, we ask the question: Can we scale their self-supervised
pretraining, specifically using masked autoencoders, to generate effective 3D
representations from posed RGB images. Owing to the astounding success of
extending transformers to novel data modalities, we employ standard 3D Vision
Transformers to suit the unique formulation of NeRFs. We leverage NeRF's
volumetric grid as a dense input to the transformer, contrasting it with other
3D representations such as pointclouds where the information density can be
uneven, and the representation is irregular. Due to the difficulty of applying
masked autoencoders to an implicit representation, such as NeRF, we opt for
extracting an explicit representation that canonicalizes scenes across domains
by employing the camera trajectory for sampling. Our goal is made possible by
masking random patches from NeRF's radiance and density grid and employing a
standard 3D Swin Transformer to reconstruct the masked patches. In doing so,
the model can learn the semantic and spatial structure of complete scenes. We
pretrain this representation at scale on our proposed curated posed-RGB data,
totaling over 1.8 million images. Once pretrained, the encoder is used for
effective 3D transfer learning. Our novel self-supervised pretraining for
NeRFs, NeRF-MAE, scales remarkably well and improves performance on various
challenging 3D tasks. Utilizing unlabeled posed 2D data for pretraining,
NeRF-MAE significantly outperforms self-supervised 3D pretraining and NeRF
scene understanding baselines on Front3D and ScanNet datasets with an absolute
performance improvement of over 20% AP50 and 8% AP25 for 3D object detection.Summary
AI-Generated Summary