OpenMask3D: 오픈-보커블러리 3D 인스턴스 세그멘테이션
OpenMask3D: Open-Vocabulary 3D Instance Segmentation
June 23, 2023
저자: Ayça Takmaz, Elisabetta Fedele, Robert W. Sumner, Marc Pollefeys, Federico Tombari, Francis Engelmann
cs.AI
초록
우리는 오픈-보캐블러리 3D 인스턴스 세그멘테이션 작업을 소개한다. 전통적인 3D 인스턴스 세그멘테이션 접근법은 주로 기존의 3D 주석 데이터셋에 의존하며, 이는 폐쇄된 객체 카테고리 집합으로 제한된다. 이는 다양한 객체와 관련된 새로운 오픈-보캐블러리 쿼리에 의해 안내된 작업을 수행해야 할 수 있는 실제 응용 프로그램에서 중요한 한계이다. 최근, 이 문제를 해결하기 위해 장면 내 각 점마다 쿼리 가능한 특징을 학습하는 오픈-보캐블러리 3D 장면 이해 방법들이 등장했다. 이러한 표현은 직접적으로 의미론적 세그멘테이션을 수행하는 데 사용될 수 있지만, 기존 방법들은 객체 인스턴스를 식별하는 능력에 한계가 있다. 본 연구에서 우리는 이러한 한계를 해결하고, 오픈-보캐블러리 3D 인스턴스 세그멘테이션을 위한 제로-샷 접근법인 OpenMask3D를 제안한다. 예측된 클래스-불특정 3D 인스턴스 마스크에 의해 안내된 우리의 모델은 CLIP 기반 이미지 임베딩의 다중 뷰 융합을 통해 마스크별 특징을 집계한다. 우리는 ScanNet200 데이터셋에서 OpenMask3D의 성능을 평가하기 위해 실험과 절제 연구를 수행하고, 오픈-보캐블러리 3D 인스턴스 세그멘테이션 작업에 대한 통찰을 제공한다. 우리의 접근법이 특히 롱-테일 분포에서 다른 오픈-보캐블러리 대안들을 능가함을 보여준다. 더 나아가, OpenMask3D는 폐쇄된 보캐블러리 접근법의 한계를 넘어, 의미론, 기하학, 어포던스, 재질 속성과 같은 객체 속성을 설명하는 자유 형식 쿼리에 기반하여 객체 인스턴스를 세그멘테이션할 수 있게 한다.
English
We introduce the task of open-vocabulary 3D instance segmentation.
Traditional approaches for 3D instance segmentation largely rely on existing 3D
annotated datasets, which are restricted to a closed-set of object categories.
This is an important limitation for real-life applications where one might need
to perform tasks guided by novel, open-vocabulary queries related to objects
from a wide variety. Recently, open-vocabulary 3D scene understanding methods
have emerged to address this problem by learning queryable features per each
point in the scene. While such a representation can be directly employed to
perform semantic segmentation, existing methods have limitations in their
ability to identify object instances. In this work, we address this limitation,
and propose OpenMask3D, which is a zero-shot approach for open-vocabulary 3D
instance segmentation. Guided by predicted class-agnostic 3D instance masks,
our model aggregates per-mask features via multi-view fusion of CLIP-based
image embeddings. We conduct experiments and ablation studies on the ScanNet200
dataset to evaluate the performance of OpenMask3D, and provide insights about
the open-vocabulary 3D instance segmentation task. We show that our approach
outperforms other open-vocabulary counterparts, particularly on the long-tail
distribution. Furthermore, OpenMask3D goes beyond the limitations of
close-vocabulary approaches, and enables the segmentation of object instances
based on free-form queries describing object properties such as semantics,
geometry, affordances, and material properties.