ChatPaper.aiChatPaper

Trouver n'importe quelle pièce en 3D

Find Any Part in 3D

November 20, 2024
Auteurs: Ziqi Ma, Yisong Yue, Georgia Gkioxari
cs.AI

Résumé

Nous étudions la segmentation de parties en monde ouvert en 3D : segmenter n'importe quelle partie de n'importe quel objet en fonction de n'importe quelle requête textuelle. Les méthodes précédentes sont limitées en termes de catégories d'objets et de vocabulaires de parties. Les récents progrès en IA ont démontré des capacités efficaces de reconnaissance en monde ouvert en 2D. Inspirés par ces avancées, nous proposons un modèle de prédiction directe en monde ouvert pour la segmentation de parties en 3D qui peut être appliqué en zéro-shot à n'importe quel objet. Notre approche, appelée Find3D, entraîne un modèle d'incorporation de points de catégorie générale sur des actifs 3D à grande échelle provenant d'Internet sans aucune annotation humaine. Elle combine un moteur de données, alimenté par des modèles de base pour l'annotation des données, avec une méthode d'entraînement contrastive. Nous obtenons de bonnes performances et une généralisation sur plusieurs ensembles de données, avec une amélioration allant jusqu'à 3 fois de l'indice mIoU par rapport à la méthode suivante. Notre modèle est de 6 à plus de 300 fois plus rapide que les références existantes. Pour encourager la recherche en segmentation de parties 3D en monde ouvert de catégorie générale, nous publions également un banc d'essai pour les objets et parties générales. Site du projet : https://ziqi-ma.github.io/find3dsite/
English
We study open-world part segmentation in 3D: segmenting any part in any object based on any text query. Prior methods are limited in object categories and part vocabularies. Recent advances in AI have demonstrated effective open-world recognition capabilities in 2D. Inspired by this progress, we propose an open-world, direct-prediction model for 3D part segmentation that can be applied zero-shot to any object. Our approach, called Find3D, trains a general-category point embedding model on large-scale 3D assets from the internet without any human annotation. It combines a data engine, powered by foundation models for annotating data, with a contrastive training method. We achieve strong performance and generalization across multiple datasets, with up to a 3x improvement in mIoU over the next best method. Our model is 6x to over 300x faster than existing baselines. To encourage research in general-category open-world 3D part segmentation, we also release a benchmark for general objects and parts. Project website: https://ziqi-ma.github.io/find3dsite/

Summary

AI-Generated Summary

PDF62November 26, 2024