ChatPaper.aiChatPaper

NeRF-MAE: Маскированные автокодировщики для самообучения трехмерного представления для нейронных поля радиации.

NeRF-MAE: Masked AutoEncoders for Self-Supervised 3D Representation Learning for Neural Radiance Fields

April 1, 2024
Авторы: Muhammad Zubair Irshad, Sergey Zakharov, Vitor Guizilini, Adrien Gaidon, Zsolt Kira, Rares Ambrus
cs.AI

Аннотация

Нейронные поля превосходят в области компьютерного зрения и робототехники благодаря своей способности понимать трехмерный визуальный мир, такой как вывод семантики, геометрии и динамики. Учитывая возможности нейронных полей в плотном представлении трехмерной сцены по двумерным изображениям, мы задаем вопрос: можем ли мы масштабировать их самообучение, в частности, с использованием маскированных автокодировщиков, для создания эффективных трехмерных представлений на основе цветных RGB изображений. В связи с поразительным успехом расширения трансформеров на новые модальности данных, мы используем стандартные трехмерные видовые трансформеры для адаптации к уникальной формулировке NeRF. Мы используем объемную сетку NeRF в качестве плотного входа для трансформера, противопоставляя ее другим трехмерным представлениям, таким как облака точек, где плотность информации может быть неравномерной, а представление неоднородным. В связи с трудностями применения маскированных автокодировщиков к неявному представлению, такому как NeRF, мы выбираем извлечение явного представления, которое канонизирует сцены в различных областях путем использования траектории камеры для выборки. Наша цель становится возможной благодаря маскированию случайных участков из сетки яркости и плотности NeRF и использованию стандартного трехмерного трансформера Swin для восстановления маскированных участков. Таким образом, модель может изучить семантическую и пространственную структуру полных сцен. Мы предварительно обучаем это представление в масштабе на наших предложенных отобранных данных цветных RGB, общим объемом более 1,8 миллиона изображений. После предварительного обучения кодировщик используется для эффективного трехмерного обучения передачи. Наше новаторское самообучение NeRF, NeRF-MAE, масштабируется замечательно и улучшает производительность на различных сложных трехмерных задачах. Используя неразмеченные цветные двумерные данные для предварительного обучения, NeRF-MAE значительно превосходит самообучение трехмерных данных и базовые показатели понимания сцены NeRF на наборах данных Front3D и ScanNet с абсолютным улучшением производительности более 20% AP50 и 8% AP25 для обнаружения трехмерных объектов.
English
Neural fields excel in computer vision and robotics due to their ability to understand the 3D visual world such as inferring semantics, geometry, and dynamics. Given the capabilities of neural fields in densely representing a 3D scene from 2D images, we ask the question: Can we scale their self-supervised pretraining, specifically using masked autoencoders, to generate effective 3D representations from posed RGB images. Owing to the astounding success of extending transformers to novel data modalities, we employ standard 3D Vision Transformers to suit the unique formulation of NeRFs. We leverage NeRF's volumetric grid as a dense input to the transformer, contrasting it with other 3D representations such as pointclouds where the information density can be uneven, and the representation is irregular. Due to the difficulty of applying masked autoencoders to an implicit representation, such as NeRF, we opt for extracting an explicit representation that canonicalizes scenes across domains by employing the camera trajectory for sampling. Our goal is made possible by masking random patches from NeRF's radiance and density grid and employing a standard 3D Swin Transformer to reconstruct the masked patches. In doing so, the model can learn the semantic and spatial structure of complete scenes. We pretrain this representation at scale on our proposed curated posed-RGB data, totaling over 1.8 million images. Once pretrained, the encoder is used for effective 3D transfer learning. Our novel self-supervised pretraining for NeRFs, NeRF-MAE, scales remarkably well and improves performance on various challenging 3D tasks. Utilizing unlabeled posed 2D data for pretraining, NeRF-MAE significantly outperforms self-supervised 3D pretraining and NeRF scene understanding baselines on Front3D and ScanNet datasets with an absolute performance improvement of over 20% AP50 and 8% AP25 for 3D object detection.

Summary

AI-Generated Summary

PDF42November 28, 2024