Trouver n'importe quelle pièce en 3D
Find Any Part in 3D
November 20, 2024
Auteurs: Ziqi Ma, Yisong Yue, Georgia Gkioxari
cs.AI
Résumé
Nous étudions la segmentation de parties en monde ouvert en 3D : segmenter n'importe quelle partie de n'importe quel objet en fonction de n'importe quelle requête textuelle. Les méthodes précédentes sont limitées en termes de catégories d'objets et de vocabulaires de parties. Les récents progrès en IA ont démontré des capacités efficaces de reconnaissance en monde ouvert en 2D. Inspirés par ces avancées, nous proposons un modèle de prédiction directe en monde ouvert pour la segmentation de parties en 3D qui peut être appliqué en zéro-shot à n'importe quel objet. Notre approche, appelée Find3D, entraîne un modèle d'incorporation de points de catégorie générale sur des actifs 3D à grande échelle provenant d'Internet sans aucune annotation humaine. Elle combine un moteur de données, alimenté par des modèles de base pour l'annotation des données, avec une méthode d'entraînement contrastive. Nous obtenons de bonnes performances et une généralisation sur plusieurs ensembles de données, avec une amélioration allant jusqu'à 3 fois de l'indice mIoU par rapport à la méthode suivante. Notre modèle est de 6 à plus de 300 fois plus rapide que les références existantes. Pour encourager la recherche en segmentation de parties 3D en monde ouvert de catégorie générale, nous publions également un banc d'essai pour les objets et parties générales. Site du projet : https://ziqi-ma.github.io/find3dsite/
English
We study open-world part segmentation in 3D: segmenting any part in any
object based on any text query. Prior methods are limited in object categories
and part vocabularies. Recent advances in AI have demonstrated effective
open-world recognition capabilities in 2D. Inspired by this progress, we
propose an open-world, direct-prediction model for 3D part segmentation that
can be applied zero-shot to any object. Our approach, called Find3D, trains a
general-category point embedding model on large-scale 3D assets from the
internet without any human annotation. It combines a data engine, powered by
foundation models for annotating data, with a contrastive training method. We
achieve strong performance and generalization across multiple datasets, with up
to a 3x improvement in mIoU over the next best method. Our model is 6x to over
300x faster than existing baselines. To encourage research in general-category
open-world 3D part segmentation, we also release a benchmark for general
objects and parts. Project website: https://ziqi-ma.github.io/find3dsite/Summary
AI-Generated Summary