ChatPaper.aiChatPaper

Vers une segmentation de parties à vocabulaire ouvert plus dense

Going Denser with Open-Vocabulary Part Segmentation

May 18, 2023
Auteurs: Peize Sun, Shoufa Chen, Chenchen Zhu, Fanyi Xiao, Ping Luo, Saining Xie, Zhicheng Yan
cs.AI

Résumé

La détection d'objets est passée d'un nombre limité de catégories à un vocabulaire ouvert. Pour aller plus loin, un système de vision intelligent complet nécessite de comprendre des descriptions d'objets plus fines ainsi que leurs parties. Dans cet article, nous proposons un détecteur capable de prédire à la fois des objets en vocabulaire ouvert et leur segmentation en parties. Cette capacité découle de deux conceptions. Premièrement, nous entraînons le détecteur sur un ensemble combiné de données au niveau des parties, des objets et des images pour établir un alignement multi-granularité entre le langage et l'image. Deuxièmement, nous décomposons un nouvel objet en ses parties grâce à sa correspondance sémantique dense avec l'objet de base. Ces deux conceptions permettent au détecteur de tirer largement profit de diverses sources de données et de modèles de base. Dans les expériences de segmentation en parties en vocabulaire ouvert, notre méthode surpasse la référence de 3,3 à 7,3 mAP en généralisation inter-dataset sur PartImageNet, et améliore la référence de 7,3 novel AP_{50} en généralisation inter-catégorie sur Pascal Part. Enfin, nous entraînons un détecteur qui généralise à un large éventail de datasets de segmentation en parties tout en obtenant de meilleures performances qu'un entraînement spécifique à un dataset.
English
Object detection has been expanded from a limited number of categories to open vocabulary. Moving forward, a complete intelligent vision system requires understanding more fine-grained object descriptions, object parts. In this paper, we propose a detector with the ability to predict both open-vocabulary objects and their part segmentation. This ability comes from two designs. First, we train the detector on the joint of part-level, object-level and image-level data to build the multi-granularity alignment between language and image. Second, we parse the novel object into its parts by its dense semantic correspondence with the base object. These two designs enable the detector to largely benefit from various data sources and foundation models. In open-vocabulary part segmentation experiments, our method outperforms the baseline by 3.3sim7.3 mAP in cross-dataset generalization on PartImageNet, and improves the baseline by 7.3 novel AP_{50} in cross-category generalization on Pascal Part. Finally, we train a detector that generalizes to a wide range of part segmentation datasets while achieving better performance than dataset-specific training.
PDF21December 15, 2024