ChatPaper.aiChatPaper

Semantic-SAM: Segmentar y Reconocer Cualquier Cosa a Cualquier Granularidad

Semantic-SAM: Segment and Recognize Anything at Any Granularity

July 10, 2023
Autores: Feng Li, Hao Zhang, Peize Sun, Xueyan Zou, Shilong Liu, Jianwei Yang, Chunyuan Li, Lei Zhang, Jianfeng Gao
cs.AI

Resumen

En este artículo presentamos Semantic-SAM, un modelo universal de segmentación de imágenes capaz de segmentar y reconocer cualquier cosa en cualquier nivel de granularidad deseado. Nuestro modelo ofrece dos ventajas clave: conciencia semántica y abundancia de granularidad. Para lograr la conciencia semántica, consolidamos múltiples conjuntos de datos en tres niveles de granularidad e introducimos una clasificación desacoplada para objetos y partes. Esto permite que nuestro modelo capture información semántica rica. Para la capacidad multi-granularidad, proponemos un esquema de aprendizaje multi-opción durante el entrenamiento, permitiendo que cada clic genere máscaras en múltiples niveles que corresponden a múltiples máscaras de referencia. Cabe destacar que este trabajo representa el primer intento de entrenar conjuntamente un modelo en los conjuntos de datos SA-1B, genéricos y de segmentación de partes. Los resultados experimentales y las visualizaciones demuestran que nuestro modelo logra con éxito la conciencia semántica y la abundancia de granularidad. Además, combinar el entrenamiento con SA-1B con otras tareas de segmentación, como la segmentación panóptica y de partes, conduce a mejoras en el rendimiento. Proporcionaremos código y una demostración para una mayor exploración y evaluación.
English
In this paper, we introduce Semantic-SAM, a universal image segmentation model to enable segment and recognize anything at any desired granularity. Our model offers two key advantages: semantic-awareness and granularity-abundance. To achieve semantic-awareness, we consolidate multiple datasets across three granularities and introduce decoupled classification for objects and parts. This allows our model to capture rich semantic information. For the multi-granularity capability, we propose a multi-choice learning scheme during training, enabling each click to generate masks at multiple levels that correspond to multiple ground-truth masks. Notably, this work represents the first attempt to jointly train a model on SA-1B, generic, and part segmentation datasets. Experimental results and visualizations demonstrate that our model successfully achieves semantic-awareness and granularity-abundance. Furthermore, combining SA-1B training with other segmentation tasks, such as panoptic and part segmentation, leads to performance improvements. We will provide code and a demo for further exploration and evaluation.
PDF221December 15, 2024