Semantic-SAM: Segmentieren und Erkennen von allem in jeder Granularität
Semantic-SAM: Segment and Recognize Anything at Any Granularity
July 10, 2023
Autoren: Feng Li, Hao Zhang, Peize Sun, Xueyan Zou, Shilong Liu, Jianwei Yang, Chunyuan Li, Lei Zhang, Jianfeng Gao
cs.AI
Zusammenfassung
In diesem Artikel stellen wir Semantic-SAM vor, ein universelles Bildsegmentierungsmodell, das es ermöglicht, alles in jeder gewünschten Granularität zu segmentieren und zu erkennen. Unser Modell bietet zwei wesentliche Vorteile: Semantikbewusstsein und Granularitätsvielfalt. Um Semantikbewusstsein zu erreichen, konsolidieren wir mehrere Datensätze über drei Granularitäten hinweg und führen eine entkoppelte Klassifizierung für Objekte und Teile ein. Dies ermöglicht es unserem Modell, umfangreiche semantische Informationen zu erfassen. Für die Multi-Granularitätsfähigkeit schlagen wir ein Multi-Choice-Lernschema während des Trainings vor, das es ermöglicht, dass jeder Klick Masken auf mehreren Ebenen erzeugt, die mehreren Ground-Truth-Masken entsprechen. Bemerkenswerterweise stellt diese Arbeit den ersten Versuch dar, ein Modell gemeinsam auf SA-1B-, generischen und Teilsegmentierungsdatensätzen zu trainieren. Experimentelle Ergebnisse und Visualisierungen zeigen, dass unser Modell erfolgreich Semantikbewusstsein und Granularitätsvielfalt erreicht. Darüber hinaus führt die Kombination von SA-1B-Training mit anderen Segmentierungsaufgaben, wie panoptischer und Teilsegmentierung, zu Leistungsverbesserungen. Wir werden Code und eine Demo zur weiteren Exploration und Bewertung bereitstellen.
English
In this paper, we introduce Semantic-SAM, a universal image segmentation
model to enable segment and recognize anything at any desired granularity. Our
model offers two key advantages: semantic-awareness and granularity-abundance.
To achieve semantic-awareness, we consolidate multiple datasets across three
granularities and introduce decoupled classification for objects and parts.
This allows our model to capture rich semantic information. For the
multi-granularity capability, we propose a multi-choice learning scheme during
training, enabling each click to generate masks at multiple levels that
correspond to multiple ground-truth masks. Notably, this work represents the
first attempt to jointly train a model on SA-1B, generic, and part segmentation
datasets. Experimental results and visualizations demonstrate that our model
successfully achieves semantic-awareness and granularity-abundance.
Furthermore, combining SA-1B training with other segmentation tasks, such as
panoptic and part segmentation, leads to performance improvements. We will
provide code and a demo for further exploration and evaluation.