ChatPaper.aiChatPaper

SAMPart3D: Сегментация Любой Части в 3D-объектах

SAMPart3D: Segment Any Part in 3D Objects

November 11, 2024
Авторы: Yunhan Yang, Yukun Huang, Yuan-Chen Guo, Liangjun Lu, Xiaoyang Wu, Edmund Y. Lam, Yan-Pei Cao, Xihui Liu
cs.AI

Аннотация

Сегментация трехмерных частей является важной и сложной задачей в трехмерном восприятии, играющей ключевую роль в приложениях, таких как робототехника, генерация трехмерных изображений и трехмерное редактирование. Недавние методы используют мощные модели визуально-языкового восприятия (VLM) для дистилляции знаний из двухмерного в трехмерное пространство, достигая нулевой сегментации трехмерных частей. Однако эти методы ограничены своей зависимостью от текстовых подсказок, что ограничивает масштабируемость на большие неразмеченные наборы данных и гибкость в обработке неоднозначностей частей. В данной работе мы представляем SAMPart3D, масштабируемую нулевую систему сегментации трехмерных частей, которая разделяет любой трехмерный объект на семантические части на нескольких уровнях детализации, не требуя заранее определенных наборов меток для частей в виде текстовых подсказок. Для масштабируемости мы используем модели визуального восприятия, не зависящие от текста, для дистилляции основы извлечения признаков трехмерных объектов, позволяя масштабироваться на большие неразмеченные трехмерные наборы данных для изучения богатых трехмерных априорных знаний. Для гибкости мы дистиллируем масштабоусловленные признаки трехмерных частей для сегментации трехмерных частей на разных уровнях детализации. После получения сегментированных частей из масштабоусловленных признаков трехмерных частей мы используем VLM для назначения семантических меток каждой части на основе многопроекционных изображений. По сравнению с предыдущими методами, наша система SAMPart3D может масштабироваться на недавний крупномасштабный трехмерный набор данных объектов Objaverse и обрабатывать сложные, необычные объекты. Кроме того, мы представляем новый бенчмарк сегментации трехмерных частей для решения проблемы отсутствия разнообразия и сложности объектов и частей в существующих бенчмарках. Эксперименты показывают, что наша система SAMPart3D значительно превосходит существующие методы нулевой сегментации трехмерных частей и может облегчить различные приложения, такие как редактирование на уровне частей и интерактивная сегментация.
English
3D part segmentation is a crucial and challenging task in 3D perception, playing a vital role in applications such as robotics, 3D generation, and 3D editing. Recent methods harness the powerful Vision Language Models (VLMs) for 2D-to-3D knowledge distillation, achieving zero-shot 3D part segmentation. However, these methods are limited by their reliance on text prompts, which restricts the scalability to large-scale unlabeled datasets and the flexibility in handling part ambiguities. In this work, we introduce SAMPart3D, a scalable zero-shot 3D part segmentation framework that segments any 3D object into semantic parts at multiple granularities, without requiring predefined part label sets as text prompts. For scalability, we use text-agnostic vision foundation models to distill a 3D feature extraction backbone, allowing scaling to large unlabeled 3D datasets to learn rich 3D priors. For flexibility, we distill scale-conditioned part-aware 3D features for 3D part segmentation at multiple granularities. Once the segmented parts are obtained from the scale-conditioned part-aware 3D features, we use VLMs to assign semantic labels to each part based on the multi-view renderings. Compared to previous methods, our SAMPart3D can scale to the recent large-scale 3D object dataset Objaverse and handle complex, non-ordinary objects. Additionally, we contribute a new 3D part segmentation benchmark to address the lack of diversity and complexity of objects and parts in existing benchmarks. Experiments show that our SAMPart3D significantly outperforms existing zero-shot 3D part segmentation methods, and can facilitate various applications such as part-level editing and interactive segmentation.

Summary

AI-Generated Summary

PDF292November 13, 2024