OpenMask3D: Open-Vocabulary 3D-Instanzsegmentierung
OpenMask3D: Open-Vocabulary 3D Instance Segmentation
June 23, 2023
Autoren: Ayça Takmaz, Elisabetta Fedele, Robert W. Sumner, Marc Pollefeys, Federico Tombari, Francis Engelmann
cs.AI
Zusammenfassung
Wir führen die Aufgabe der Open-Vocabulary-3D-Instanzsegmentierung ein. Traditionelle Ansätze für die 3D-Instanzsegmentierung stützen sich weitgehend auf bestehende 3D-annotierte Datensätze, die auf eine geschlossene Menge von Objektkategorien beschränkt sind. Dies stellt eine wichtige Einschränkung für reale Anwendungen dar, bei denen Aufgaben durch neuartige, Open-Vocabulary-Abfragen im Zusammenhang mit Objekten aus einer Vielzahl von Kategorien gesteuert werden müssen. Kürzlich sind Methoden zur Open-Vocabulary-3D-Szenenverständigung entstanden, die dieses Problem angehen, indem sie abfragbare Merkmale für jeden Punkt in der Szene lernen. Während eine solche Darstellung direkt zur Durchführung von semantischer Segmentierung verwendet werden kann, haben bestehende Methoden Einschränkungen in ihrer Fähigkeit, Objektinstanzen zu identifizieren. In dieser Arbeit gehen wir auf diese Einschränkung ein und schlagen OpenMask3D vor, einen Zero-Shot-Ansatz für die Open-Vocabulary-3D-Instanzsegmentierung. Angeleitet durch vorhergesagte, klassenagnostische 3D-Instanzmasken, aggregiert unser Modell pro-Maske-Merkmale durch Multi-View-Fusion von CLIP-basierten Bild-Einbettungen. Wir führen Experimente und Ablationsstudien auf dem ScanNet200-Datensatz durch, um die Leistung von OpenMask3D zu bewerten, und liefern Einblicke in die Aufgabe der Open-Vocabulary-3D-Instanzsegmentierung. Wir zeigen, dass unser Ansatz andere Open-Vocabulary-Methoden übertrifft, insbesondere bei der Long-Tail-Verteilung. Darüber hinaus geht OpenMask3D über die Grenzen von Close-Vocabulary-Ansätzen hinaus und ermöglicht die Segmentierung von Objektinstanzen basierend auf freiformulierten Abfragen, die Objekteigenschaften wie Semantik, Geometrie, Affordanzen und Materialeigenschaften beschreiben.
English
We introduce the task of open-vocabulary 3D instance segmentation.
Traditional approaches for 3D instance segmentation largely rely on existing 3D
annotated datasets, which are restricted to a closed-set of object categories.
This is an important limitation for real-life applications where one might need
to perform tasks guided by novel, open-vocabulary queries related to objects
from a wide variety. Recently, open-vocabulary 3D scene understanding methods
have emerged to address this problem by learning queryable features per each
point in the scene. While such a representation can be directly employed to
perform semantic segmentation, existing methods have limitations in their
ability to identify object instances. In this work, we address this limitation,
and propose OpenMask3D, which is a zero-shot approach for open-vocabulary 3D
instance segmentation. Guided by predicted class-agnostic 3D instance masks,
our model aggregates per-mask features via multi-view fusion of CLIP-based
image embeddings. We conduct experiments and ablation studies on the ScanNet200
dataset to evaluate the performance of OpenMask3D, and provide insights about
the open-vocabulary 3D instance segmentation task. We show that our approach
outperforms other open-vocabulary counterparts, particularly on the long-tail
distribution. Furthermore, OpenMask3D goes beyond the limitations of
close-vocabulary approaches, and enables the segmentation of object instances
based on free-form queries describing object properties such as semantics,
geometry, affordances, and material properties.