OpenMask3D: オープン語彙3Dインスタンスセグメンテーション
OpenMask3D: Open-Vocabulary 3D Instance Segmentation
June 23, 2023
著者: Ayça Takmaz, Elisabetta Fedele, Robert W. Sumner, Marc Pollefeys, Federico Tombari, Francis Engelmann
cs.AI
要旨
オープンボキャブラリ3Dインスタンスセグメンテーションのタスクを導入する。従来の3Dインスタンスセグメンテーション手法は、既存の3Dアノテーションデータセットに大きく依存しており、これらは閉じたオブジェクトカテゴリに限定されている。これは、多様なオブジェクトに関連する新しいオープンボキャブラリクエリに基づいてタスクを実行する必要がある実世界のアプリケーションにおいて重要な制約である。最近、この問題に対処するために、シーンの各ポイントに対してクエリ可能な特徴を学習するオープンボキャブラリ3Dシーン理解手法が登場している。このような表現はセマンティックセグメンテーションを直接実行するために使用できるが、既存の手法にはオブジェクトインスタンスを識別する能力に限界がある。本研究では、この制限に対処し、オープンボキャブラリ3DインスタンスセグメンテーションのためのゼロショットアプローチであるOpenMask3Dを提案する。予測されたクラス非依存の3Dインスタンスマスクに基づいて、我々のモデルはCLIPベースの画像埋め込みのマルチビューフュージョンを通じてマスクごとの特徴を集約する。ScanNet200データセットで実験とアブレーションスタディを行い、OpenMask3Dの性能を評価し、オープンボキャブラリ3Dインスタンスセグメンテーションタスクに関する洞察を提供する。我々のアプローチは、特にロングテール分布において、他のオープンボキャブラリ手法を上回ることを示す。さらに、OpenMask3Dは閉じたボキャブラリ手法の制限を超え、セマンティクス、ジオメトリ、アフォーダンス、材料特性などのオブジェクトプロパティを記述する自由形式のクエリに基づいてオブジェクトインスタンスをセグメンテーションすることを可能にする。
English
We introduce the task of open-vocabulary 3D instance segmentation.
Traditional approaches for 3D instance segmentation largely rely on existing 3D
annotated datasets, which are restricted to a closed-set of object categories.
This is an important limitation for real-life applications where one might need
to perform tasks guided by novel, open-vocabulary queries related to objects
from a wide variety. Recently, open-vocabulary 3D scene understanding methods
have emerged to address this problem by learning queryable features per each
point in the scene. While such a representation can be directly employed to
perform semantic segmentation, existing methods have limitations in their
ability to identify object instances. In this work, we address this limitation,
and propose OpenMask3D, which is a zero-shot approach for open-vocabulary 3D
instance segmentation. Guided by predicted class-agnostic 3D instance masks,
our model aggregates per-mask features via multi-view fusion of CLIP-based
image embeddings. We conduct experiments and ablation studies on the ScanNet200
dataset to evaluate the performance of OpenMask3D, and provide insights about
the open-vocabulary 3D instance segmentation task. We show that our approach
outperforms other open-vocabulary counterparts, particularly on the long-tail
distribution. Furthermore, OpenMask3D goes beyond the limitations of
close-vocabulary approaches, and enables the segmentation of object instances
based on free-form queries describing object properties such as semantics,
geometry, affordances, and material properties.