ChatPaper.aiChatPaper

Encontre Qualquer Parte em 3D

Find Any Part in 3D

November 20, 2024
Autores: Ziqi Ma, Yisong Yue, Georgia Gkioxari
cs.AI

Resumo

Estudamos a segmentação de partes em mundo aberto em 3D: segmentando qualquer parte em qualquer objeto com base em qualquer consulta de texto. Métodos anteriores são limitados em categorias de objetos e vocabulários de partes. Avanços recentes em IA têm demonstrado capacidades eficazes de reconhecimento em mundo aberto em 2D. Inspirados por esse progresso, propomos um modelo de previsão direta em mundo aberto para segmentação de partes em 3D que pode ser aplicado de forma zero-shot a qualquer objeto. Nossa abordagem, chamada Find3D, treina um modelo de incorporação de pontos de categoria geral em ativos 3D em grande escala da internet sem nenhuma anotação humana. Ele combina um mecanismo de dados, alimentado por modelos fundamentais para anotar dados, com um método de treinamento contrastivo. Alcançamos um desempenho forte e generalização em vários conjuntos de dados, com uma melhoria de até 3x no mIoU em relação ao próximo melhor método. Nosso modelo é de 6x a mais de 300x mais rápido do que os baselines existentes. Para incentivar a pesquisa em segmentação de partes em 3D em mundo aberto de categoria geral, também disponibilizamos um benchmark para objetos e partes gerais. Site do projeto: https://ziqi-ma.github.io/find3dsite/
English
We study open-world part segmentation in 3D: segmenting any part in any object based on any text query. Prior methods are limited in object categories and part vocabularies. Recent advances in AI have demonstrated effective open-world recognition capabilities in 2D. Inspired by this progress, we propose an open-world, direct-prediction model for 3D part segmentation that can be applied zero-shot to any object. Our approach, called Find3D, trains a general-category point embedding model on large-scale 3D assets from the internet without any human annotation. It combines a data engine, powered by foundation models for annotating data, with a contrastive training method. We achieve strong performance and generalization across multiple datasets, with up to a 3x improvement in mIoU over the next best method. Our model is 6x to over 300x faster than existing baselines. To encourage research in general-category open-world 3D part segmentation, we also release a benchmark for general objects and parts. Project website: https://ziqi-ma.github.io/find3dsite/

Summary

AI-Generated Summary

PDF62November 26, 2024