ChatPaper.aiChatPaper

Semantic-SAM: Segmenteren en Herkennen van Alles op Elke Granulariteit

Semantic-SAM: Segment and Recognize Anything at Any Granularity

July 10, 2023
Auteurs: Feng Li, Hao Zhang, Peize Sun, Xueyan Zou, Shilong Liu, Jianwei Yang, Chunyuan Li, Lei Zhang, Jianfeng Gao
cs.AI

Samenvatting

In dit artikel introduceren we Semantic-SAM, een universeel beeldsegmentatiemodel dat in staat is om alles te segmenteren en herkennen op elke gewenste granulariteit. Ons model biedt twee belangrijke voordelen: semantisch bewustzijn en granulariteitsrijkdom. Om semantisch bewustzijn te bereiken, consolideren we meerdere datasets over drie granulariteiten en introduceren we ontkoppelde classificatie voor objecten en onderdelen. Hierdoor kan ons model rijke semantische informatie vastleggen. Voor de multi-granulariteitsmogelijkheid stellen we een multi-choice leerstrategie voor tijdens de training, waardoor elke klik maskers op meerdere niveaus kan genereren die overeenkomen met meerdere grondwaarheidmaskers. Opmerkelijk is dat dit werk de eerste poging vertegenwoordigt om een model gezamenlijk te trainen op SA-1B, generieke en onderdeelsegmentatiedatasets. Experimentele resultaten en visualisaties tonen aan dat ons model met succes semantisch bewustzijn en granulariteitsrijkdom bereikt. Bovendien leidt het combineren van SA-1B-training met andere segmentatietaken, zoals panoptische en onderdeelsegmentatie, tot prestatieverbeteringen. We zullen code en een demo beschikbaar stellen voor verdere verkenning en evaluatie.
English
In this paper, we introduce Semantic-SAM, a universal image segmentation model to enable segment and recognize anything at any desired granularity. Our model offers two key advantages: semantic-awareness and granularity-abundance. To achieve semantic-awareness, we consolidate multiple datasets across three granularities and introduce decoupled classification for objects and parts. This allows our model to capture rich semantic information. For the multi-granularity capability, we propose a multi-choice learning scheme during training, enabling each click to generate masks at multiple levels that correspond to multiple ground-truth masks. Notably, this work represents the first attempt to jointly train a model on SA-1B, generic, and part segmentation datasets. Experimental results and visualizations demonstrate that our model successfully achieves semantic-awareness and granularity-abundance. Furthermore, combining SA-1B training with other segmentation tasks, such as panoptic and part segmentation, leads to performance improvements. We will provide code and a demo for further exploration and evaluation.
PDF221December 15, 2024