Semantic-SAM : Segmenter et reconnaître tout objet à n'importe quelle granularité

Résumé

Dans cet article, nous présentons Semantic-SAM, un modèle universel de segmentation d'images capable de segmenter et de reconnaître tout objet à n'importe quelle granularité souhaitée. Notre modèle offre deux avantages clés : la conscience sémantique et l'abondance de granularité. Pour atteindre la conscience sémantique, nous consolidons plusieurs jeux de données couvrant trois granularités et introduisons une classification découplée pour les objets et leurs parties. Cela permet à notre modèle de capturer des informations sémantiques riches. Pour la capacité multi-granularité, nous proposons un schéma d'apprentissage à choix multiples pendant l'entraînement, permettant à chaque clic de générer des masques à plusieurs niveaux correspondant à plusieurs masques de vérité terrain. Notamment, ce travail représente la première tentative d'entraîner conjointement un modèle sur les jeux de données SA-1B, génériques et de segmentation de parties. Les résultats expérimentaux et les visualisations démontrent que notre modèle atteint avec succès la conscience sémantique et l'abondance de granularité. De plus, la combinaison de l'entraînement sur SA-1B avec d'autres tâches de segmentation, telles que la segmentation panoptique et de parties, conduit à des améliorations de performance. Nous fournirons le code et une démonstration pour une exploration et une évaluation approfondies.

English

In this paper, we introduce Semantic-SAM, a universal image segmentation model to enable segment and recognize anything at any desired granularity. Our model offers two key advantages: semantic-awareness and granularity-abundance. To achieve semantic-awareness, we consolidate multiple datasets across three granularities and introduce decoupled classification for objects and parts. This allows our model to capture rich semantic information. For the multi-granularity capability, we propose a multi-choice learning scheme during training, enabling each click to generate masks at multiple levels that correspond to multiple ground-truth masks. Notably, this work represents the first attempt to jointly train a model on SA-1B, generic, and part segmentation datasets. Experimental results and visualizations demonstrate that our model successfully achieves semantic-awareness and granularity-abundance. Furthermore, combining SA-1B training with other segmentation tasks, such as panoptic and part segmentation, leads to performance improvements. We will provide code and a demo for further exploration and evaluation.

Semantic-SAM : Segmenter et reconnaître tout objet à n'importe quelle granularité

Semantic-SAM: Segment and Recognize Anything at Any Granularity

Résumé

Support