OmniNOCS: 2D 객체의 3D 리프팅을 위한 통합 NOCS 데이터셋 및 모델
OmniNOCS: A unified NOCS dataset and model for 3D lifting of 2D objects
July 11, 2024
저자: Akshay Krishnan, Abhijit Kundu, Kevis-Kokitsi Maninis, James Hays, Matthew Brown
cs.AI
초록
우리는 실내외 장면을 위한 3D 정규화 객체 좌표 공간(NOCS) 맵, 객체 마스크, 그리고 3D 바운딩 박스 주석을 포함한 대규모 단안 데이터셋인 OmniNOCS를 제안합니다. OmniNOCS는 기존 NOCS 데이터셋(NOCS-Real275, Wild6D)보다 20배 더 많은 객체 클래스와 200배 더 많은 인스턴스를 포함하고 있습니다. 우리는 OmniNOCS를 사용하여 다양한 클래스에 걸쳐 2D 객체 탐지로부터 정확한 NOCS, 인스턴스 마스크, 그리고 포즈를 예측할 수 있는 새로운 트랜스포머 기반 단안 NOCS 예측 모델(NOCSformer)을 학습시켰습니다. 이는 2D 박스로 프롬프트될 때 광범위한 클래스로 일반화할 수 있는 최초의 NOCS 모델입니다. 우리는 3D 방향 바운딩 박스 예측 작업에서 모델을 평가했으며, Cube R-CNN과 같은 최신 3D 탐지 방법과 비슷한 결과를 달성했습니다. 다른 3D 탐지 방법과 달리, 우리의 모델은 또한 상세하고 정확한 3D 객체 형태와 세분화를 제공합니다. 우리는 OmniNOCS를 기반으로 NOCS 예측 작업을 위한 새로운 벤치마크를 제안하며, 이는 이 분야의 향후 연구에 유용한 기준이 되기를 바랍니다. 우리의 데이터셋과 코드는 프로젝트 웹사이트(https://omninocs.github.io)에서 확인할 수 있습니다.
English
We propose OmniNOCS, a large-scale monocular dataset with 3D Normalized
Object Coordinate Space (NOCS) maps, object masks, and 3D bounding box
annotations for indoor and outdoor scenes. OmniNOCS has 20 times more object
classes and 200 times more instances than existing NOCS datasets (NOCS-Real275,
Wild6D). We use OmniNOCS to train a novel, transformer-based monocular NOCS
prediction model (NOCSformer) that can predict accurate NOCS, instance masks
and poses from 2D object detections across diverse classes. It is the first
NOCS model that can generalize to a broad range of classes when prompted with
2D boxes. We evaluate our model on the task of 3D oriented bounding box
prediction, where it achieves comparable results to state-of-the-art 3D
detection methods such as Cube R-CNN. Unlike other 3D detection methods, our
model also provides detailed and accurate 3D object shape and segmentation. We
propose a novel benchmark for the task of NOCS prediction based on OmniNOCS,
which we hope will serve as a useful baseline for future work in this area. Our
dataset and code will be at the project website: https://omninocs.github.io.Summary
AI-Generated Summary