OpenMask3D: Segmentación 3D de Instancias con Vocabulario Abierto
OpenMask3D: Open-Vocabulary 3D Instance Segmentation
June 23, 2023
Autores: Ayça Takmaz, Elisabetta Fedele, Robert W. Sumner, Marc Pollefeys, Federico Tombari, Francis Engelmann
cs.AI
Resumen
Presentamos la tarea de segmentación de instancias 3D de vocabulario abierto. Los enfoques tradicionales para la segmentación de instancias 3D dependen en gran medida de conjuntos de datos 3D anotados existentes, los cuales están limitados a un conjunto cerrado de categorías de objetos. Esta es una limitación importante para aplicaciones de la vida real, donde podría ser necesario realizar tareas guiadas por consultas novedosas de vocabulario abierto relacionadas con objetos de una amplia variedad. Recientemente, han surgido métodos de comprensión de escenas 3D de vocabulario abierto para abordar este problema, aprendiendo características consultables por cada punto en la escena. Si bien dicha representación puede emplearse directamente para realizar segmentación semántica, los métodos existentes tienen limitaciones en su capacidad para identificar instancias de objetos. En este trabajo, abordamos esta limitación y proponemos OpenMask3D, un enfoque de cero-shot para la segmentación de instancias 3D de vocabulario abierto. Guiado por máscaras de instancias 3D agnósticas a la clase predichas, nuestro modelo agrega características por máscara mediante la fusión multi-vista de incrustaciones de imágenes basadas en CLIP. Realizamos experimentos y estudios de ablación en el conjunto de datos ScanNet200 para evaluar el rendimiento de OpenMask3D y proporcionamos insights sobre la tarea de segmentación de instancias 3D de vocabulario abierto. Demostramos que nuestro enfoque supera a otras contrapartes de vocabulario abierto, particularmente en la distribución de cola larga. Además, OpenMask3D va más allá de las limitaciones de los enfoques de vocabulario cerrado y permite la segmentación de instancias de objetos basada en consultas de forma libre que describen propiedades de los objetos, como semántica, geometría, affordances y propiedades de los materiales.
English
We introduce the task of open-vocabulary 3D instance segmentation.
Traditional approaches for 3D instance segmentation largely rely on existing 3D
annotated datasets, which are restricted to a closed-set of object categories.
This is an important limitation for real-life applications where one might need
to perform tasks guided by novel, open-vocabulary queries related to objects
from a wide variety. Recently, open-vocabulary 3D scene understanding methods
have emerged to address this problem by learning queryable features per each
point in the scene. While such a representation can be directly employed to
perform semantic segmentation, existing methods have limitations in their
ability to identify object instances. In this work, we address this limitation,
and propose OpenMask3D, which is a zero-shot approach for open-vocabulary 3D
instance segmentation. Guided by predicted class-agnostic 3D instance masks,
our model aggregates per-mask features via multi-view fusion of CLIP-based
image embeddings. We conduct experiments and ablation studies on the ScanNet200
dataset to evaluate the performance of OpenMask3D, and provide insights about
the open-vocabulary 3D instance segmentation task. We show that our approach
outperforms other open-vocabulary counterparts, particularly on the long-tail
distribution. Furthermore, OpenMask3D goes beyond the limitations of
close-vocabulary approaches, and enables the segmentation of object instances
based on free-form queries describing object properties such as semantics,
geometry, affordances, and material properties.