Finde jedes Teil in 3D.
Find Any Part in 3D
November 20, 2024
Autoren: Ziqi Ma, Yisong Yue, Georgia Gkioxari
cs.AI
Zusammenfassung
Wir untersuchen die Segmentierung von Teilen in offenen 3D-Welten: die Segmentierung eines beliebigen Teils in einem beliebigen Objekt basierend auf einer beliebigen Textabfrage. Frühere Methoden sind in Objektkategorien und Teilverzeichnissen begrenzt. Die jüngsten Fortschritte in der KI haben effektive Fähigkeiten zur offenen Welt-Erkennung in 2D gezeigt. Inspiriert von diesem Fortschritt schlagen wir ein offenes, direktes Vorhersagemodell für die 3D-Teilsegmentierung vor, das nullschrittig auf jedes Objekt angewendet werden kann. Unser Ansatz, namens Find3D, trainiert ein allgemeines Kategorien-Punkteinbettungsmodell auf groß angelegten 3D-Ressourcen aus dem Internet ohne jegliche menschliche Annotation. Es kombiniert eine Daten-Engine, die von Grundlagenmodellen zur Annotation von Daten unterstützt wird, mit einer kontrastiven Trainingsmethode. Wir erzielen starke Leistungen und Generalisierung über mehrere Datensätze hinweg, mit einer bis zu 3-fachen Verbesserung des mIoU gegenüber der nächstbesten Methode. Unser Modell ist 6-fach bis über 300-fach schneller als bestehende Baselines. Um die Forschung in der allgemeinen Kategorie der offenen 3D-Teilsegmentierung zu fördern, veröffentlichen wir auch einen Benchmark für allgemeine Objekte und Teile. Projektwebsite: https://ziqi-ma.github.io/find3dsite/
English
We study open-world part segmentation in 3D: segmenting any part in any
object based on any text query. Prior methods are limited in object categories
and part vocabularies. Recent advances in AI have demonstrated effective
open-world recognition capabilities in 2D. Inspired by this progress, we
propose an open-world, direct-prediction model for 3D part segmentation that
can be applied zero-shot to any object. Our approach, called Find3D, trains a
general-category point embedding model on large-scale 3D assets from the
internet without any human annotation. It combines a data engine, powered by
foundation models for annotating data, with a contrastive training method. We
achieve strong performance and generalization across multiple datasets, with up
to a 3x improvement in mIoU over the next best method. Our model is 6x to over
300x faster than existing baselines. To encourage research in general-category
open-world 3D part segmentation, we also release a benchmark for general
objects and parts. Project website: https://ziqi-ma.github.io/find3dsite/Summary
AI-Generated Summary