OpenMask3D: Open-Vocabulary 3D Instantiesegmentatie
OpenMask3D: Open-Vocabulary 3D Instance Segmentation
June 23, 2023
Auteurs: Ayça Takmaz, Elisabetta Fedele, Robert W. Sumner, Marc Pollefeys, Federico Tombari, Francis Engelmann
cs.AI
Samenvatting
We introduceren de taak van open-vocabulary 3D instance segmentation. Traditionele benaderingen voor 3D instance segmentation zijn grotendeels afhankelijk van bestaande 3D-geannoteerde datasets, die beperkt zijn tot een gesloten set van objectcategorieën. Dit is een belangrijke beperking voor real-life toepassingen waarin men taken moet uitvoeren die worden geleid door nieuwe, open-vocabulary queries gerelateerd aan objecten uit een breed scala. Recentelijk zijn er open-vocabulary 3D scene understanding methoden ontstaan om dit probleem aan te pakken door querybare features per punt in de scène te leren. Hoewel een dergelijke representatie direct kan worden gebruikt om semantische segmentatie uit te voeren, hebben bestaande methoden beperkingen in hun vermogen om objectinstanties te identificeren. In dit werk pakken we deze beperking aan en stellen we OpenMask3D voor, een zero-shot benadering voor open-vocabulary 3D instance segmentation. Geleid door voorspelde klasse-agnostische 3D instance masks, aggregeert ons model per-mask features via multi-view fusie van CLIP-gebaseerde beeldembeddings. We voeren experimenten en ablatiestudies uit op de ScanNet200 dataset om de prestaties van OpenMask3D te evalueren en geven inzichten over de open-vocabulary 3D instance segmentation taak. We tonen aan dat onze aanpak andere open-vocabulary tegenhangers overtreft, met name op de long-tail distributie. Bovendien gaat OpenMask3D verder dan de beperkingen van close-vocabulary benaderingen en maakt het de segmentatie van objectinstanties mogelijk op basis van vrije-vorm queries die objecteigenschappen beschrijven zoals semantiek, geometrie, affordances en materiaaleigenschappen.
English
We introduce the task of open-vocabulary 3D instance segmentation.
Traditional approaches for 3D instance segmentation largely rely on existing 3D
annotated datasets, which are restricted to a closed-set of object categories.
This is an important limitation for real-life applications where one might need
to perform tasks guided by novel, open-vocabulary queries related to objects
from a wide variety. Recently, open-vocabulary 3D scene understanding methods
have emerged to address this problem by learning queryable features per each
point in the scene. While such a representation can be directly employed to
perform semantic segmentation, existing methods have limitations in their
ability to identify object instances. In this work, we address this limitation,
and propose OpenMask3D, which is a zero-shot approach for open-vocabulary 3D
instance segmentation. Guided by predicted class-agnostic 3D instance masks,
our model aggregates per-mask features via multi-view fusion of CLIP-based
image embeddings. We conduct experiments and ablation studies on the ScanNet200
dataset to evaluate the performance of OpenMask3D, and provide insights about
the open-vocabulary 3D instance segmentation task. We show that our approach
outperforms other open-vocabulary counterparts, particularly on the long-tail
distribution. Furthermore, OpenMask3D goes beyond the limitations of
close-vocabulary approaches, and enables the segmentation of object instances
based on free-form queries describing object properties such as semantics,
geometry, affordances, and material properties.