Semantic-SAM : Segmenter et reconnaître tout objet à n'importe quelle granularité
Semantic-SAM: Segment and Recognize Anything at Any Granularity
July 10, 2023
Auteurs: Feng Li, Hao Zhang, Peize Sun, Xueyan Zou, Shilong Liu, Jianwei Yang, Chunyuan Li, Lei Zhang, Jianfeng Gao
cs.AI
Résumé
Dans cet article, nous présentons Semantic-SAM, un modèle universel de segmentation d'images capable de segmenter et de reconnaître tout objet à n'importe quelle granularité souhaitée. Notre modèle offre deux avantages clés : la conscience sémantique et l'abondance de granularité. Pour atteindre la conscience sémantique, nous consolidons plusieurs jeux de données couvrant trois granularités et introduisons une classification découplée pour les objets et leurs parties. Cela permet à notre modèle de capturer des informations sémantiques riches. Pour la capacité multi-granularité, nous proposons un schéma d'apprentissage à choix multiples pendant l'entraînement, permettant à chaque clic de générer des masques à plusieurs niveaux correspondant à plusieurs masques de vérité terrain. Notamment, ce travail représente la première tentative d'entraîner conjointement un modèle sur les jeux de données SA-1B, génériques et de segmentation de parties. Les résultats expérimentaux et les visualisations démontrent que notre modèle atteint avec succès la conscience sémantique et l'abondance de granularité. De plus, la combinaison de l'entraînement sur SA-1B avec d'autres tâches de segmentation, telles que la segmentation panoptique et de parties, conduit à des améliorations de performance. Nous fournirons le code et une démonstration pour une exploration et une évaluation approfondies.
English
In this paper, we introduce Semantic-SAM, a universal image segmentation
model to enable segment and recognize anything at any desired granularity. Our
model offers two key advantages: semantic-awareness and granularity-abundance.
To achieve semantic-awareness, we consolidate multiple datasets across three
granularities and introduce decoupled classification for objects and parts.
This allows our model to capture rich semantic information. For the
multi-granularity capability, we propose a multi-choice learning scheme during
training, enabling each click to generate masks at multiple levels that
correspond to multiple ground-truth masks. Notably, this work represents the
first attempt to jointly train a model on SA-1B, generic, and part segmentation
datasets. Experimental results and visualizations demonstrate that our model
successfully achieves semantic-awareness and granularity-abundance.
Furthermore, combining SA-1B training with other segmentation tasks, such as
panoptic and part segmentation, leads to performance improvements. We will
provide code and a demo for further exploration and evaluation.