ChatPaper.aiChatPaper

OpenMask3D: Открыто-словарная 3D-сегментация экземпляров

OpenMask3D: Open-Vocabulary 3D Instance Segmentation

June 23, 2023
Авторы: Ayça Takmaz, Elisabetta Fedele, Robert W. Sumner, Marc Pollefeys, Federico Tombari, Francis Engelmann
cs.AI

Аннотация

Мы представляем задачу открыто-словарной 3D-сегментации объектов. Традиционные подходы к 3D-сегментации объектов в значительной степени опираются на существующие аннотированные 3D-датасеты, которые ограничены закрытым набором категорий объектов. Это является важным ограничением для реальных приложений, где может потребоваться выполнение задач, направляемых новыми, открыто-словарными запросами, связанными с объектами из широкого спектра категорий. Недавно появились методы открыто-словарного понимания 3D-сцен, которые решают эту проблему, обучая запрашиваемые признаки для каждой точки сцены. Хотя такое представление может быть непосредственно использовано для выполнения семантической сегментации, существующие методы имеют ограничения в способности идентифицировать объектные экземпляры. В данной работе мы устраняем это ограничение и предлагаем OpenMask3D — подход с нулевым обучением для открыто-словарной 3D-сегментации объектов. Руководствуясь предсказанными класс-независимыми 3D-масками объектов, наша модель агрегирует признаки для каждой маски с помощью мультивьюшного слияния CLIP-эмбеддингов изображений. Мы проводим эксперименты и исследования на датасете ScanNet200 для оценки производительности OpenMask3D и предоставляем инсайты о задаче открыто-словарной 3D-сегментации объектов. Мы показываем, что наш подход превосходит другие открыто-словарные методы, особенно на длинном хвосте распределения. Более того, OpenMask3D выходит за рамки ограничений закрыто-словарных подходов и позволяет сегментировать объектные экземпляры на основе свободных запросов, описывающих свойства объектов, такие как семантика, геометрия, аффордансы и свойства материалов.
English
We introduce the task of open-vocabulary 3D instance segmentation. Traditional approaches for 3D instance segmentation largely rely on existing 3D annotated datasets, which are restricted to a closed-set of object categories. This is an important limitation for real-life applications where one might need to perform tasks guided by novel, open-vocabulary queries related to objects from a wide variety. Recently, open-vocabulary 3D scene understanding methods have emerged to address this problem by learning queryable features per each point in the scene. While such a representation can be directly employed to perform semantic segmentation, existing methods have limitations in their ability to identify object instances. In this work, we address this limitation, and propose OpenMask3D, which is a zero-shot approach for open-vocabulary 3D instance segmentation. Guided by predicted class-agnostic 3D instance masks, our model aggregates per-mask features via multi-view fusion of CLIP-based image embeddings. We conduct experiments and ablation studies on the ScanNet200 dataset to evaluate the performance of OpenMask3D, and provide insights about the open-vocabulary 3D instance segmentation task. We show that our approach outperforms other open-vocabulary counterparts, particularly on the long-tail distribution. Furthermore, OpenMask3D goes beyond the limitations of close-vocabulary approaches, and enables the segmentation of object instances based on free-form queries describing object properties such as semantics, geometry, affordances, and material properties.
PDF100December 15, 2024