ODIN: 2D 및 3D 인식을 위한 단일 모델
ODIN: A Single Model for 2D and 3D Perception
January 4, 2024
저자: Ayush Jain, Pushkal Katara, Nikolaos Gkanatsios, Adam W. Harley, Gabriel Sarch, Kriti Aggarwal, Vishrav Chaudhary, Katerina Fragkiadaki
cs.AI
초록
최신 3D 인식 벤치마크인 ScanNet에서 최첨단 모델들은 다중 뷰 RGB-D 이미지를 센싱한 후 후처리 과정을 통해 얻은 데이터셋 제공 3D 포인트 클라우드를 소비하고 레이블을 지정합니다. 이러한 모델들은 일반적으로 도메인 내에서 훈련되며, 대규모 2D 사전 훈련을 생략하고, 포즈가 지정된 RGB-D 다중 뷰 이미지를 특징화하는 대안들을 능가합니다. 포즈가 지정된 이미지를 소비하는 방법과 후처리된 3D 포인트 클라우드를 소비하는 방법 간의 성능 차이는 2D와 3D 인식이 별개의 모델 아키텍처를 필요로 한다는 믿음을 부추겼습니다. 본 논문에서는 이러한 관점에 도전하고, 2D RGB 이미지와 3D 포인트 클라우드를 모두 분할하고 레이블을 지정할 수 있는 ODIN(Omni-Dimensional INstance segmentation) 모델을 제안합니다. 이 모델은 2D 뷰 내 정보와 3D 뷰 간 정보 융합을 번갈아가며 수행하는 트랜스포머 아키텍처를 사용합니다. 우리의 모델은 2D 패치 토큰의 경우 픽셀 좌표를, 3D 특징 토큰의 경우 3D 좌표를 캡처하는 토큰의 위치 인코딩을 통해 2D와 3D 특징 연산을 구분합니다. ODIN은 ScanNet200, Matterport3D 및 AI2THOR 3D 인스턴스 분할 벤치마크에서 최첨단 성능을 달성했으며, ScanNet, S3DIS 및 COCO에서도 경쟁력 있는 성능을 보입니다. 이 모델은 3D 메시에서 샘플링된 포인트 클라우드 대신 센싱된 3D 포인트 클라우드를 사용할 때 모든 이전 작업들을 큰 차이로 능가합니다. 또한, 지시 가능한 구현 에이전트 아키텍처의 3D 인식 엔진으로 사용될 때, TEACh 대화 기반 행동 벤치마크에서 새로운 최첨단 성능을 설정합니다. 우리의 코드와 체크포인트는 프로젝트 웹사이트(https://odin-seg.github.io)에서 확인할 수 있습니다.
English
State-of-the-art models on contemporary 3D perception benchmarks like ScanNet
consume and label dataset-provided 3D point clouds, obtained through post
processing of sensed multiview RGB-D images. They are typically trained
in-domain, forego large-scale 2D pre-training and outperform alternatives that
featurize the posed RGB-D multiview images instead. The gap in performance
between methods that consume posed images versus post-processed 3D point clouds
has fueled the belief that 2D and 3D perception require distinct model
architectures. In this paper, we challenge this view and propose ODIN
(Omni-Dimensional INstance segmentation), a model that can segment and label
both 2D RGB images and 3D point clouds, using a transformer architecture that
alternates between 2D within-view and 3D cross-view information fusion. Our
model differentiates 2D and 3D feature operations through the positional
encodings of the tokens involved, which capture pixel coordinates for 2D patch
tokens and 3D coordinates for 3D feature tokens. ODIN achieves state-of-the-art
performance on ScanNet200, Matterport3D and AI2THOR 3D instance segmentation
benchmarks, and competitive performance on ScanNet, S3DIS and COCO. It
outperforms all previous works by a wide margin when the sensed 3D point cloud
is used in place of the point cloud sampled from 3D mesh. When used as the 3D
perception engine in an instructable embodied agent architecture, it sets a new
state-of-the-art on the TEACh action-from-dialogue benchmark. Our code and
checkpoints can be found at the project website: https://odin-seg.github.io.