OpenMask3D : Segmentation d'instances 3D en vocabulaire ouvert
OpenMask3D: Open-Vocabulary 3D Instance Segmentation
June 23, 2023
Auteurs: Ayça Takmaz, Elisabetta Fedele, Robert W. Sumner, Marc Pollefeys, Federico Tombari, Francis Engelmann
cs.AI
Résumé
Nous introduisons la tâche de segmentation d'instances 3D à vocabulaire ouvert. Les approches traditionnelles pour la segmentation d'instances 3D reposent largement sur des ensembles de données 3D annotées existants, qui sont limités à un ensemble fermé de catégories d'objets. Cela constitue une limitation importante pour les applications réelles où l'on pourrait avoir besoin d'effectuer des tâches guidées par des requêtes nouvelles et à vocabulaire ouvert, liées à des objets d'une grande variété. Récemment, des méthodes de compréhension de scènes 3D à vocabulaire ouvert ont émergé pour résoudre ce problème en apprenant des caractéristiques interrogeables pour chaque point de la scène. Bien qu'une telle représentation puisse être directement utilisée pour effectuer une segmentation sémantique, les méthodes existantes présentent des limitations dans leur capacité à identifier des instances d'objets. Dans ce travail, nous abordons cette limitation et proposons OpenMask3D, une approche zero-shot pour la segmentation d'instances 3D à vocabulaire ouvert. Guidé par des masques d'instances 3D agnostiques aux classes prédits, notre modèle agrège des caractéristiques par masque via une fusion multi-vues d'embeddings d'images basés sur CLIP. Nous menons des expériences et des études d'ablation sur le jeu de données ScanNet200 pour évaluer les performances d'OpenMask3D et fournir des insights sur la tâche de segmentation d'instances 3D à vocabulaire ouvert. Nous montrons que notre approche surpasse les autres méthodes à vocabulaire ouvert, en particulier sur la distribution de la longue traîne. De plus, OpenMask3D va au-delà des limitations des approches à vocabulaire fermé et permet la segmentation d'instances d'objets basée sur des requêtes libres décrivant des propriétés d'objets telles que la sémantique, la géométrie, les affordances et les propriétés matérielles.
English
We introduce the task of open-vocabulary 3D instance segmentation.
Traditional approaches for 3D instance segmentation largely rely on existing 3D
annotated datasets, which are restricted to a closed-set of object categories.
This is an important limitation for real-life applications where one might need
to perform tasks guided by novel, open-vocabulary queries related to objects
from a wide variety. Recently, open-vocabulary 3D scene understanding methods
have emerged to address this problem by learning queryable features per each
point in the scene. While such a representation can be directly employed to
perform semantic segmentation, existing methods have limitations in their
ability to identify object instances. In this work, we address this limitation,
and propose OpenMask3D, which is a zero-shot approach for open-vocabulary 3D
instance segmentation. Guided by predicted class-agnostic 3D instance masks,
our model aggregates per-mask features via multi-view fusion of CLIP-based
image embeddings. We conduct experiments and ablation studies on the ScanNet200
dataset to evaluate the performance of OpenMask3D, and provide insights about
the open-vocabulary 3D instance segmentation task. We show that our approach
outperforms other open-vocabulary counterparts, particularly on the long-tail
distribution. Furthermore, OpenMask3D goes beyond the limitations of
close-vocabulary approaches, and enables the segmentation of object instances
based on free-form queries describing object properties such as semantics,
geometry, affordances, and material properties.