Encontre Qualquer Parte em 3D
Find Any Part in 3D
November 20, 2024
Autores: Ziqi Ma, Yisong Yue, Georgia Gkioxari
cs.AI
Resumo
Estudamos a segmentação de partes em mundo aberto em 3D: segmentando qualquer parte em qualquer objeto com base em qualquer consulta de texto. Métodos anteriores são limitados em categorias de objetos e vocabulários de partes. Avanços recentes em IA têm demonstrado capacidades eficazes de reconhecimento em mundo aberto em 2D. Inspirados por esse progresso, propomos um modelo de previsão direta em mundo aberto para segmentação de partes em 3D que pode ser aplicado de forma zero-shot a qualquer objeto. Nossa abordagem, chamada Find3D, treina um modelo de incorporação de pontos de categoria geral em ativos 3D em grande escala da internet sem nenhuma anotação humana. Ele combina um mecanismo de dados, alimentado por modelos fundamentais para anotar dados, com um método de treinamento contrastivo. Alcançamos um desempenho forte e generalização em vários conjuntos de dados, com uma melhoria de até 3x no mIoU em relação ao próximo melhor método. Nosso modelo é de 6x a mais de 300x mais rápido do que os baselines existentes. Para incentivar a pesquisa em segmentação de partes em 3D em mundo aberto de categoria geral, também disponibilizamos um benchmark para objetos e partes gerais. Site do projeto: https://ziqi-ma.github.io/find3dsite/
English
We study open-world part segmentation in 3D: segmenting any part in any
object based on any text query. Prior methods are limited in object categories
and part vocabularies. Recent advances in AI have demonstrated effective
open-world recognition capabilities in 2D. Inspired by this progress, we
propose an open-world, direct-prediction model for 3D part segmentation that
can be applied zero-shot to any object. Our approach, called Find3D, trains a
general-category point embedding model on large-scale 3D assets from the
internet without any human annotation. It combines a data engine, powered by
foundation models for annotating data, with a contrastive training method. We
achieve strong performance and generalization across multiple datasets, with up
to a 3x improvement in mIoU over the next best method. Our model is 6x to over
300x faster than existing baselines. To encourage research in general-category
open-world 3D part segmentation, we also release a benchmark for general
objects and parts. Project website: https://ziqi-ma.github.io/find3dsite/Summary
AI-Generated Summary