Encuentra Cualquier Parte en 3D
Find Any Part in 3D
November 20, 2024
Autores: Ziqi Ma, Yisong Yue, Georgia Gkioxari
cs.AI
Resumen
Estudiamos la segmentación de partes en el mundo abierto en 3D: segmentando cualquier parte en cualquier objeto basado en cualquier consulta de texto. Los métodos previos están limitados en categorías de objetos y vocabularios de partes. Los avances recientes en IA han demostrado capacidades efectivas de reconocimiento en el mundo abierto en 2D. Inspirados por este progreso, proponemos un modelo de predicción directa de mundo abierto para la segmentación de partes en 3D que puede aplicarse de manera de cero disparos a cualquier objeto. Nuestro enfoque, llamado Find3D, entrena un modelo de incrustación de puntos de categoría general en activos 3D a gran escala de internet sin ninguna anotación humana. Combina un motor de datos, impulsado por modelos fundamentales para la anotación de datos, con un método de entrenamiento contrastivo. Logramos un rendimiento sólido y generalización en múltiples conjuntos de datos, con una mejora de hasta 3 veces en mIoU sobre el siguiente mejor método. Nuestro modelo es de 6 a más de 300 veces más rápido que las líneas de base existentes. Para fomentar la investigación en la segmentación de partes en 3D de categoría general en el mundo abierto, también lanzamos un punto de referencia para objetos y partes generales. Sitio web del proyecto: https://ziqi-ma.github.io/find3dsite/
English
We study open-world part segmentation in 3D: segmenting any part in any
object based on any text query. Prior methods are limited in object categories
and part vocabularies. Recent advances in AI have demonstrated effective
open-world recognition capabilities in 2D. Inspired by this progress, we
propose an open-world, direct-prediction model for 3D part segmentation that
can be applied zero-shot to any object. Our approach, called Find3D, trains a
general-category point embedding model on large-scale 3D assets from the
internet without any human annotation. It combines a data engine, powered by
foundation models for annotating data, with a contrastive training method. We
achieve strong performance and generalization across multiple datasets, with up
to a 3x improvement in mIoU over the next best method. Our model is 6x to over
300x faster than existing baselines. To encourage research in general-category
open-world 3D part segmentation, we also release a benchmark for general
objects and parts. Project website: https://ziqi-ma.github.io/find3dsite/Summary
AI-Generated Summary