SAMPart3D: Segmentação de Qualquer Parte em Objetos 3D
SAMPart3D: Segment Any Part in 3D Objects
November 11, 2024
Autores: Yunhan Yang, Yukun Huang, Yuan-Chen Guo, Liangjun Lu, Xiaoyang Wu, Edmund Y. Lam, Yan-Pei Cao, Xihui Liu
cs.AI
Resumo
A segmentação de partes em 3D é uma tarefa crucial e desafiadora na percepção 3D, desempenhando um papel vital em aplicações como robótica, geração 3D e edição 3D. Métodos recentes aproveitam os poderosos Modelos de Linguagem de Visão (VLMs) para destilação de conhecimento de 2D para 3D, alcançando segmentação de partes em 3D sem a necessidade de treinamento. No entanto, esses métodos são limitados pela dependência de prompts de texto, o que restringe a escalabilidade para conjuntos de dados não rotulados em grande escala e a flexibilidade no tratamento de ambiguidades de partes. Neste trabalho, apresentamos o SAMPart3D, um framework escalável de segmentação de partes em 3D sem a necessidade de conjuntos de rótulos de partes predefinidos como prompts de texto. Para escalabilidade, utilizamos modelos de visão fundacional independentes de texto para destilar uma espinha dorsal de extração de características em 3D, permitindo a expansão para grandes conjuntos de dados 3D não rotulados para aprender priors 3D ricos. Para flexibilidade, destilamos características 3D de partes conscientes de escala para segmentação de partes em 3D em múltiplas granularidades. Uma vez que as partes segmentadas são obtidas a partir das características 3D de partes conscientes de escala, utilizamos VLMs para atribuir rótulos semânticos a cada parte com base nas renderizações de múltiplas visões. Em comparação com métodos anteriores, nosso SAMPart3D pode se adaptar ao recente conjunto de dados de objetos 3D em grande escala Objaverse e lidar com objetos complexos e não convencionais. Além disso, contribuímos com um novo benchmark de segmentação de partes em 3D para abordar a falta de diversidade e complexidade de objetos e partes nos benchmarks existentes. Experimentos mostram que nosso SAMPart3D supera significativamente os métodos existentes de segmentação de partes em 3D sem a necessidade de treinamento, e pode facilitar várias aplicações, como edição em nível de partes e segmentação interativa.
English
3D part segmentation is a crucial and challenging task in 3D perception,
playing a vital role in applications such as robotics, 3D generation, and 3D
editing. Recent methods harness the powerful Vision Language Models (VLMs) for
2D-to-3D knowledge distillation, achieving zero-shot 3D part segmentation.
However, these methods are limited by their reliance on text prompts, which
restricts the scalability to large-scale unlabeled datasets and the flexibility
in handling part ambiguities. In this work, we introduce SAMPart3D, a scalable
zero-shot 3D part segmentation framework that segments any 3D object into
semantic parts at multiple granularities, without requiring predefined part
label sets as text prompts. For scalability, we use text-agnostic vision
foundation models to distill a 3D feature extraction backbone, allowing scaling
to large unlabeled 3D datasets to learn rich 3D priors. For flexibility, we
distill scale-conditioned part-aware 3D features for 3D part segmentation at
multiple granularities. Once the segmented parts are obtained from the
scale-conditioned part-aware 3D features, we use VLMs to assign semantic labels
to each part based on the multi-view renderings. Compared to previous methods,
our SAMPart3D can scale to the recent large-scale 3D object dataset Objaverse
and handle complex, non-ordinary objects. Additionally, we contribute a new 3D
part segmentation benchmark to address the lack of diversity and complexity of
objects and parts in existing benchmarks. Experiments show that our SAMPart3D
significantly outperforms existing zero-shot 3D part segmentation methods, and
can facilitate various applications such as part-level editing and interactive
segmentation.