ODIN: Единая модель для восприятия в 2D и 3D
ODIN: A Single Model for 2D and 3D Perception
January 4, 2024
Авторы: Ayush Jain, Pushkal Katara, Nikolaos Gkanatsios, Adam W. Harley, Gabriel Sarch, Kriti Aggarwal, Vishrav Chaudhary, Katerina Fragkiadaki
cs.AI
Аннотация
Современные модели на актуальных бенчмарках 3D-восприятия, таких как ScanNet, обрабатывают и маркируют предоставленные наборы данных 3D-точечных облаков, полученные в результате постобработки многовидовых RGB-D изображений. Обычно они обучаются в рамках домена, отказываются от крупномасштабной 2D-предварительной подготовки и превосходят альтернативы, которые используют размещенные многовидовые RGB-D изображения. Разрыв в производительности между методами, работающими с размещенными изображениями и постобработанными 3D-точечными облаками, укрепил мнение, что 2D и 3D восприятие требуют различных архитектур моделей. В этой статье мы оспариваем эту точку зрения и предлагаем ODIN (Omni-Dimensional INstance segmentation) — модель, которая может сегментировать и маркировать как 2D RGB изображения, так и 3D-точечные облака, используя архитектуру трансформера, которая чередует 2D-внутривидовое и 3D-межвидовое объединение информации. Наша модель различает 2D и 3D операции с признаками через позиционные кодировки задействованных токенов, которые захватывают координаты пикселей для 2D-патч токенов и 3D-координаты для 3D-признаковых токенов. ODIN достигает наилучших результатов на бенчмарках 3D-сегментации ScanNet200, Matterport3D и AI2THOR, а также демонстрирует конкурентоспособные результаты на ScanNet, S3DIS и COCO. Она значительно превосходит все предыдущие работы, когда используется сенсорное 3D-точечное облако вместо облака, сэмплированного из 3D-сетки. При использовании в качестве движка 3D-восприятия в архитектуре управляемого агента, она устанавливает новый рекорд на бенчмарке TEACh для выполнения действий на основе диалога. Наш код и контрольные точки доступны на сайте проекта: https://odin-seg.github.io.
English
State-of-the-art models on contemporary 3D perception benchmarks like ScanNet
consume and label dataset-provided 3D point clouds, obtained through post
processing of sensed multiview RGB-D images. They are typically trained
in-domain, forego large-scale 2D pre-training and outperform alternatives that
featurize the posed RGB-D multiview images instead. The gap in performance
between methods that consume posed images versus post-processed 3D point clouds
has fueled the belief that 2D and 3D perception require distinct model
architectures. In this paper, we challenge this view and propose ODIN
(Omni-Dimensional INstance segmentation), a model that can segment and label
both 2D RGB images and 3D point clouds, using a transformer architecture that
alternates between 2D within-view and 3D cross-view information fusion. Our
model differentiates 2D and 3D feature operations through the positional
encodings of the tokens involved, which capture pixel coordinates for 2D patch
tokens and 3D coordinates for 3D feature tokens. ODIN achieves state-of-the-art
performance on ScanNet200, Matterport3D and AI2THOR 3D instance segmentation
benchmarks, and competitive performance on ScanNet, S3DIS and COCO. It
outperforms all previous works by a wide margin when the sensed 3D point cloud
is used in place of the point cloud sampled from 3D mesh. When used as the 3D
perception engine in an instructable embodied agent architecture, it sets a new
state-of-the-art on the TEACh action-from-dialogue benchmark. Our code and
checkpoints can be found at the project website: https://odin-seg.github.io.