OpenMask3D: Segmentazione 3D di istanze a vocabolario aperto

Abstract

Introduciamo il compito della segmentazione di istanze 3D a vocabolario aperto. Gli approcci tradizionali per la segmentazione di istanze 3D si basano principalmente su dataset 3D annotati esistenti, che sono limitati a un insieme chiuso di categorie di oggetti. Questa è una limitazione significativa per applicazioni reali in cui potrebbe essere necessario eseguire compiti guidati da query nuove e a vocabolario aperto relative a oggetti di una vasta gamma. Recentemente, sono emersi metodi di comprensione di scene 3D a vocabolario aperto per affrontare questo problema, apprendendo caratteristiche interrogabili per ogni punto della scena. Sebbene tale rappresentazione possa essere utilizzata direttamente per eseguire la segmentazione semantica, i metodi esistenti presentano limitazioni nella loro capacità di identificare istanze di oggetti. In questo lavoro, affrontiamo questa limitazione e proponiamo OpenMask3D, un approccio zero-shot per la segmentazione di istanze 3D a vocabolario aperto. Guidato da maschere di istanze 3D agnostiche rispetto alla classe predette, il nostro modello aggrega caratteristiche per maschera tramite fusione multi-vista di embedding di immagini basati su CLIP. Conduciamo esperimenti e studi di ablazione sul dataset ScanNet200 per valutare le prestazioni di OpenMask3D e forniamo approfondimenti sul compito della segmentazione di istanze 3D a vocabolario aperto. Dimostriamo che il nostro approccio supera altre controparti a vocabolario aperto, in particolare sulla distribuzione a coda lunga. Inoltre, OpenMask3D va oltre i limiti degli approcci a vocabolario chiuso e consente la segmentazione di istanze di oggetti basata su query libere che descrivono proprietà degli oggetti come semantica, geometria, affordance e proprietà dei materiali.

English

We introduce the task of open-vocabulary 3D instance segmentation. Traditional approaches for 3D instance segmentation largely rely on existing 3D annotated datasets, which are restricted to a closed-set of object categories. This is an important limitation for real-life applications where one might need to perform tasks guided by novel, open-vocabulary queries related to objects from a wide variety. Recently, open-vocabulary 3D scene understanding methods have emerged to address this problem by learning queryable features per each point in the scene. While such a representation can be directly employed to perform semantic segmentation, existing methods have limitations in their ability to identify object instances. In this work, we address this limitation, and propose OpenMask3D, which is a zero-shot approach for open-vocabulary 3D instance segmentation. Guided by predicted class-agnostic 3D instance masks, our model aggregates per-mask features via multi-view fusion of CLIP-based image embeddings. We conduct experiments and ablation studies on the ScanNet200 dataset to evaluate the performance of OpenMask3D, and provide insights about the open-vocabulary 3D instance segmentation task. We show that our approach outperforms other open-vocabulary counterparts, particularly on the long-tail distribution. Furthermore, OpenMask3D goes beyond the limitations of close-vocabulary approaches, and enables the segmentation of object instances based on free-form queries describing object properties such as semantics, geometry, affordances, and material properties.

OpenMask3D: Segmentazione 3D di istanze a vocabolario aperto

OpenMask3D: Open-Vocabulary 3D Instance Segmentation

Abstract

Support