ChatPaper.aiChatPaper

NeRF-MAE: Autoencoders Mascaramento para Aprendizado de Representação 3D Auto-supervisionado para Campos de Radiância Neural

NeRF-MAE: Masked AutoEncoders for Self-Supervised 3D Representation Learning for Neural Radiance Fields

April 1, 2024
Autores: Muhammad Zubair Irshad, Sergey Zakharov, Vitor Guizilini, Adrien Gaidon, Zsolt Kira, Rares Ambrus
cs.AI

Resumo

Os campos neurais destacam-se em visão computacional e robótica devido à sua capacidade de compreender o mundo visual 3D, como inferir semântica, geometria e dinâmica. Dadas as capacidades dos campos neurais em representar densamente uma cena 3D a partir de imagens 2D, fazemos a pergunta: Podemos escalar seu pré-treinamento auto-supervisionado, especificamente usando autoencoders mascarados, para gerar representações 3D eficazes a partir de imagens RGB posicionadas. Devido ao sucesso impressionante da extensão de transformers para novas modalidades de dados, empregamos Transformers de Visão 3D padrão para adequar à formulação única dos NeRFs. Utilizamos a grade volumétrica do NeRF como entrada densa para o transformer, contrastando com outras representações 3D, como nuvens de pontos, onde a densidade de informação pode ser desigual e a representação é irregular. Devido à dificuldade de aplicar autoencoders mascarados a uma representação implícita, como o NeRF, optamos por extrair uma representação explícita que canoniza cenas entre domínios empregando a trajetória da câmera para amostragem. Nosso objetivo é viabilizado mascarando patches aleatórios da grade de radiância e densidade do NeRF e empregando um Transformer 3D Swin padrão para reconstruir os patches mascarados. Dessa forma, o modelo pode aprender a estrutura semântica e espacial de cenas completas. Pré-treinamos essa representação em escala em nossos dados RGB posicionados propostos, totalizando mais de 1,8 milhão de imagens. Uma vez pré-treinado, o codificador é utilizado para aprendizado de transferência 3D eficaz. Nosso novo pré-treinamento auto-supervisionado para NeRFs, NeRF-MAE, escala de forma notável e melhora o desempenho em várias tarefas 3D desafiadoras. Utilizando dados 2D posicionados não rotulados para pré-treinamento, o NeRF-MAE supera significativamente os baselines de pré-treinamento 3D auto-supervisionado e de compreensão de cena NeRF em conjuntos de dados Front3D e ScanNet com uma melhoria de desempenho absoluto de mais de 20% AP50 e 8% AP25 para detecção de objetos 3D.
English
Neural fields excel in computer vision and robotics due to their ability to understand the 3D visual world such as inferring semantics, geometry, and dynamics. Given the capabilities of neural fields in densely representing a 3D scene from 2D images, we ask the question: Can we scale their self-supervised pretraining, specifically using masked autoencoders, to generate effective 3D representations from posed RGB images. Owing to the astounding success of extending transformers to novel data modalities, we employ standard 3D Vision Transformers to suit the unique formulation of NeRFs. We leverage NeRF's volumetric grid as a dense input to the transformer, contrasting it with other 3D representations such as pointclouds where the information density can be uneven, and the representation is irregular. Due to the difficulty of applying masked autoencoders to an implicit representation, such as NeRF, we opt for extracting an explicit representation that canonicalizes scenes across domains by employing the camera trajectory for sampling. Our goal is made possible by masking random patches from NeRF's radiance and density grid and employing a standard 3D Swin Transformer to reconstruct the masked patches. In doing so, the model can learn the semantic and spatial structure of complete scenes. We pretrain this representation at scale on our proposed curated posed-RGB data, totaling over 1.8 million images. Once pretrained, the encoder is used for effective 3D transfer learning. Our novel self-supervised pretraining for NeRFs, NeRF-MAE, scales remarkably well and improves performance on various challenging 3D tasks. Utilizing unlabeled posed 2D data for pretraining, NeRF-MAE significantly outperforms self-supervised 3D pretraining and NeRF scene understanding baselines on Front3D and ScanNet datasets with an absolute performance improvement of over 20% AP50 and 8% AP25 for 3D object detection.

Summary

AI-Generated Summary

PDF42November 28, 2024