OpenMask3D: Open-Vocabulary 3D-Instanzsegmentierung

Zusammenfassung

Wir führen die Aufgabe der Open-Vocabulary-3D-Instanzsegmentierung ein. Traditionelle Ansätze für die 3D-Instanzsegmentierung stützen sich weitgehend auf bestehende 3D-annotierte Datensätze, die auf eine geschlossene Menge von Objektkategorien beschränkt sind. Dies stellt eine wichtige Einschränkung für reale Anwendungen dar, bei denen Aufgaben durch neuartige, Open-Vocabulary-Abfragen im Zusammenhang mit Objekten aus einer Vielzahl von Kategorien gesteuert werden müssen. Kürzlich sind Methoden zur Open-Vocabulary-3D-Szenenverständigung entstanden, die dieses Problem angehen, indem sie abfragbare Merkmale für jeden Punkt in der Szene lernen. Während eine solche Darstellung direkt zur Durchführung von semantischer Segmentierung verwendet werden kann, haben bestehende Methoden Einschränkungen in ihrer Fähigkeit, Objektinstanzen zu identifizieren. In dieser Arbeit gehen wir auf diese Einschränkung ein und schlagen OpenMask3D vor, einen Zero-Shot-Ansatz für die Open-Vocabulary-3D-Instanzsegmentierung. Angeleitet durch vorhergesagte, klassenagnostische 3D-Instanzmasken, aggregiert unser Modell pro-Maske-Merkmale durch Multi-View-Fusion von CLIP-basierten Bild-Einbettungen. Wir führen Experimente und Ablationsstudien auf dem ScanNet200-Datensatz durch, um die Leistung von OpenMask3D zu bewerten, und liefern Einblicke in die Aufgabe der Open-Vocabulary-3D-Instanzsegmentierung. Wir zeigen, dass unser Ansatz andere Open-Vocabulary-Methoden übertrifft, insbesondere bei der Long-Tail-Verteilung. Darüber hinaus geht OpenMask3D über die Grenzen von Close-Vocabulary-Ansätzen hinaus und ermöglicht die Segmentierung von Objektinstanzen basierend auf freiformulierten Abfragen, die Objekteigenschaften wie Semantik, Geometrie, Affordanzen und Materialeigenschaften beschreiben.

English

We introduce the task of open-vocabulary 3D instance segmentation. Traditional approaches for 3D instance segmentation largely rely on existing 3D annotated datasets, which are restricted to a closed-set of object categories. This is an important limitation for real-life applications where one might need to perform tasks guided by novel, open-vocabulary queries related to objects from a wide variety. Recently, open-vocabulary 3D scene understanding methods have emerged to address this problem by learning queryable features per each point in the scene. While such a representation can be directly employed to perform semantic segmentation, existing methods have limitations in their ability to identify object instances. In this work, we address this limitation, and propose OpenMask3D, which is a zero-shot approach for open-vocabulary 3D instance segmentation. Guided by predicted class-agnostic 3D instance masks, our model aggregates per-mask features via multi-view fusion of CLIP-based image embeddings. We conduct experiments and ablation studies on the ScanNet200 dataset to evaluate the performance of OpenMask3D, and provide insights about the open-vocabulary 3D instance segmentation task. We show that our approach outperforms other open-vocabulary counterparts, particularly on the long-tail distribution. Furthermore, OpenMask3D goes beyond the limitations of close-vocabulary approaches, and enables the segmentation of object instances based on free-form queries describing object properties such as semantics, geometry, affordances, and material properties.

OpenMask3D: Open-Vocabulary 3D-Instanzsegmentierung

OpenMask3D: Open-Vocabulary 3D Instance Segmentation

Zusammenfassung

Support