NeRF-MAE: Autoencoders Enmascarados para el Aprendizaje de Representaciones 3D Auto-supervisadas para Campos de Radiancia Neurales
NeRF-MAE: Masked AutoEncoders for Self-Supervised 3D Representation Learning for Neural Radiance Fields
April 1, 2024
Autores: Muhammad Zubair Irshad, Sergey Zakharov, Vitor Guizilini, Adrien Gaidon, Zsolt Kira, Rares Ambrus
cs.AI
Resumen
Los campos neuronales destacan en visión por computadora y robótica debido a su capacidad para comprender el mundo visual en 3D, como inferir semántica, geometría y dinámica. Dadas las capacidades de los campos neuronales para representar de manera densa una escena en 3D a partir de imágenes en 2D, nos planteamos la pregunta: ¿Podemos escalar su preentrenamiento auto-supervisado, específicamente utilizando autoencoders enmascarados, para generar representaciones efectivas en 3D a partir de imágenes RGB posadas? Debido al asombroso éxito de extender los transformers a nuevas modalidades de datos, empleamos Transformers de Visión 3D estándar para adaptarse a la formulación única de NeRFs. Aprovechamos la rejilla volumétrica de NeRF como una entrada densa al transformer, contrastándola con otras representaciones en 3D como nubes de puntos donde la densidad de información puede ser desigual y la representación es irregular. Debido a la dificultad de aplicar autoencoders enmascarados a una representación implícita, como NeRF, optamos por extraer una representación explícita que canoniza escenas a través de dominios mediante el empleo de la trayectoria de la cámara para muestreo. Nuestro objetivo se logra al enmascarar parches aleatorios de la rejilla de radiancia y densidad de NeRF y emplear un Transformer 3D Swin estándar para reconstruir los parches enmascarados. De esta manera, el modelo puede aprender la estructura semántica y espacial de escenas completas. Preentrenamos esta representación a gran escala en nuestros datos propuestos de imágenes RGB posadas, totalizando más de 1.8 millones de imágenes. Una vez preentrenado, el codificador se utiliza para un aprendizaje de transferencia en 3D efectivo. Nuestro novedoso preentrenamiento auto-supervisado para NeRFs, NeRF-MAE, escala de manera notable y mejora el rendimiento en diversas tareas desafiantes en 3D. Utilizando datos 2D posados no etiquetados para preentrenamiento, NeRF-MAE supera significativamente a los baselines de preentrenamiento 3D auto-supervisado y de comprensión de escenas NeRF en los conjuntos de datos Front3D y ScanNet con una mejora de rendimiento absoluto de más del 20% AP50 y 8% AP25 para la detección de objetos en 3D.
English
Neural fields excel in computer vision and robotics due to their ability to
understand the 3D visual world such as inferring semantics, geometry, and
dynamics. Given the capabilities of neural fields in densely representing a 3D
scene from 2D images, we ask the question: Can we scale their self-supervised
pretraining, specifically using masked autoencoders, to generate effective 3D
representations from posed RGB images. Owing to the astounding success of
extending transformers to novel data modalities, we employ standard 3D Vision
Transformers to suit the unique formulation of NeRFs. We leverage NeRF's
volumetric grid as a dense input to the transformer, contrasting it with other
3D representations such as pointclouds where the information density can be
uneven, and the representation is irregular. Due to the difficulty of applying
masked autoencoders to an implicit representation, such as NeRF, we opt for
extracting an explicit representation that canonicalizes scenes across domains
by employing the camera trajectory for sampling. Our goal is made possible by
masking random patches from NeRF's radiance and density grid and employing a
standard 3D Swin Transformer to reconstruct the masked patches. In doing so,
the model can learn the semantic and spatial structure of complete scenes. We
pretrain this representation at scale on our proposed curated posed-RGB data,
totaling over 1.8 million images. Once pretrained, the encoder is used for
effective 3D transfer learning. Our novel self-supervised pretraining for
NeRFs, NeRF-MAE, scales remarkably well and improves performance on various
challenging 3D tasks. Utilizing unlabeled posed 2D data for pretraining,
NeRF-MAE significantly outperforms self-supervised 3D pretraining and NeRF
scene understanding baselines on Front3D and ScanNet datasets with an absolute
performance improvement of over 20% AP50 and 8% AP25 for 3D object detection.Summary
AI-Generated Summary