OpenMask3D: Segmentação 3D de Instâncias com Vocabulário Aberto
OpenMask3D: Open-Vocabulary 3D Instance Segmentation
June 23, 2023
Autores: Ayça Takmaz, Elisabetta Fedele, Robert W. Sumner, Marc Pollefeys, Federico Tombari, Francis Engelmann
cs.AI
Resumo
Apresentamos a tarefa de segmentação de instâncias 3D de vocabulário aberto. As abordagens tradicionais para segmentação de instâncias 3D dependem amplamente de conjuntos de dados 3D anotados existentes, que são restritos a um conjunto fechado de categorias de objetos. Essa é uma limitação importante para aplicações da vida real, onde pode ser necessário realizar tarefas guiadas por consultas de vocabulário aberto relacionadas a objetos de uma ampla variedade. Recentemente, métodos de compreensão de cenas 3D de vocabulário aberto surgiram para abordar esse problema, aprendendo características consultáveis para cada ponto da cena. Embora tal representação possa ser diretamente empregada para realizar segmentação semântica, os métodos existentes têm limitações em sua capacidade de identificar instâncias de objetos. Neste trabalho, abordamos essa limitação e propomos o OpenMask3D, uma abordagem de segmentação de instâncias 3D de vocabulário aberto sem necessidade de treinamento prévio. Guiado por máscaras de instâncias 3D agnósticas à classe previstas, nosso modelo agrega características por máscara por meio da fusão multi-visual de embeddings de imagens baseados no CLIP. Realizamos experimentos e estudos de ablação no conjunto de dados ScanNet200 para avaliar o desempenho do OpenMask3D e fornecemos insights sobre a tarefa de segmentação de instâncias 3D de vocabulário aberto. Mostramos que nossa abordagem supera outras contrapartes de vocabulário aberto, particularmente na distribuição de cauda longa. Além disso, o OpenMask3D vai além das limitações das abordagens de vocabulário fechado e permite a segmentação de instâncias de objetos com base em consultas de forma livre que descrevem propriedades dos objetos, como semântica, geometria, affordances e propriedades dos materiais.
English
We introduce the task of open-vocabulary 3D instance segmentation.
Traditional approaches for 3D instance segmentation largely rely on existing 3D
annotated datasets, which are restricted to a closed-set of object categories.
This is an important limitation for real-life applications where one might need
to perform tasks guided by novel, open-vocabulary queries related to objects
from a wide variety. Recently, open-vocabulary 3D scene understanding methods
have emerged to address this problem by learning queryable features per each
point in the scene. While such a representation can be directly employed to
perform semantic segmentation, existing methods have limitations in their
ability to identify object instances. In this work, we address this limitation,
and propose OpenMask3D, which is a zero-shot approach for open-vocabulary 3D
instance segmentation. Guided by predicted class-agnostic 3D instance masks,
our model aggregates per-mask features via multi-view fusion of CLIP-based
image embeddings. We conduct experiments and ablation studies on the ScanNet200
dataset to evaluate the performance of OpenMask3D, and provide insights about
the open-vocabulary 3D instance segmentation task. We show that our approach
outperforms other open-vocabulary counterparts, particularly on the long-tail
distribution. Furthermore, OpenMask3D goes beyond the limitations of
close-vocabulary approaches, and enables the segmentation of object instances
based on free-form queries describing object properties such as semantics,
geometry, affordances, and material properties.