ChatPaper.aiChatPaper

Semantic-SAM: Сегментация и распознавание объектов на любом уровне детализации

Semantic-SAM: Segment and Recognize Anything at Any Granularity

July 10, 2023
Авторы: Feng Li, Hao Zhang, Peize Sun, Xueyan Zou, Shilong Liu, Jianwei Yang, Chunyuan Li, Lei Zhang, Jianfeng Gao
cs.AI

Аннотация

В данной статье мы представляем Semantic-SAM — универсальную модель сегментации изображений, способную сегментировать и распознавать объекты на любом уровне детализации. Наша модель обладает двумя ключевыми преимуществами: семантической осведомленностью и поддержкой множества уровней детализации. Для достижения семантической осведомленности мы объединяем несколько наборов данных, охватывающих три уровня детализации, и вводим раздельную классификацию для объектов и их частей. Это позволяет модели захватывать богатую семантическую информацию. Для реализации поддержки множества уровней детализации мы предлагаем схему многовариантного обучения на этапе тренировки, которая позволяет каждому клику генерировать маски на нескольких уровнях, соответствующих нескольким эталонным маскам. Примечательно, что данная работа представляет собой первую попытку совместного обучения модели на наборах данных SA-1B, общей и частичной сегментации. Результаты экспериментов и визуализации демонстрируют, что наша модель успешно достигает семантической осведомленности и поддержки множества уровней детализации. Более того, комбинирование обучения на SA-1B с другими задачами сегментации, такими как панорамная и частичная сегментация, приводит к улучшению производительности. Мы предоставим код и демонстрацию для дальнейшего изучения и оценки.
English
In this paper, we introduce Semantic-SAM, a universal image segmentation model to enable segment and recognize anything at any desired granularity. Our model offers two key advantages: semantic-awareness and granularity-abundance. To achieve semantic-awareness, we consolidate multiple datasets across three granularities and introduce decoupled classification for objects and parts. This allows our model to capture rich semantic information. For the multi-granularity capability, we propose a multi-choice learning scheme during training, enabling each click to generate masks at multiple levels that correspond to multiple ground-truth masks. Notably, this work represents the first attempt to jointly train a model on SA-1B, generic, and part segmentation datasets. Experimental results and visualizations demonstrate that our model successfully achieves semantic-awareness and granularity-abundance. Furthermore, combining SA-1B training with other segmentation tasks, such as panoptic and part segmentation, leads to performance improvements. We will provide code and a demo for further exploration and evaluation.
PDF221December 15, 2024