ChatPaper.aiChatPaper

Semantic-SAM: Segmentieren und Erkennen von allem in jeder Granularität

Semantic-SAM: Segment and Recognize Anything at Any Granularity

July 10, 2023
Autoren: Feng Li, Hao Zhang, Peize Sun, Xueyan Zou, Shilong Liu, Jianwei Yang, Chunyuan Li, Lei Zhang, Jianfeng Gao
cs.AI

Zusammenfassung

In diesem Artikel stellen wir Semantic-SAM vor, ein universelles Bildsegmentierungsmodell, das es ermöglicht, alles in jeder gewünschten Granularität zu segmentieren und zu erkennen. Unser Modell bietet zwei wesentliche Vorteile: Semantikbewusstsein und Granularitätsvielfalt. Um Semantikbewusstsein zu erreichen, konsolidieren wir mehrere Datensätze über drei Granularitäten hinweg und führen eine entkoppelte Klassifizierung für Objekte und Teile ein. Dies ermöglicht es unserem Modell, umfangreiche semantische Informationen zu erfassen. Für die Multi-Granularitätsfähigkeit schlagen wir ein Multi-Choice-Lernschema während des Trainings vor, das es ermöglicht, dass jeder Klick Masken auf mehreren Ebenen erzeugt, die mehreren Ground-Truth-Masken entsprechen. Bemerkenswerterweise stellt diese Arbeit den ersten Versuch dar, ein Modell gemeinsam auf SA-1B-, generischen und Teilsegmentierungsdatensätzen zu trainieren. Experimentelle Ergebnisse und Visualisierungen zeigen, dass unser Modell erfolgreich Semantikbewusstsein und Granularitätsvielfalt erreicht. Darüber hinaus führt die Kombination von SA-1B-Training mit anderen Segmentierungsaufgaben, wie panoptischer und Teilsegmentierung, zu Leistungsverbesserungen. Wir werden Code und eine Demo zur weiteren Exploration und Bewertung bereitstellen.
English
In this paper, we introduce Semantic-SAM, a universal image segmentation model to enable segment and recognize anything at any desired granularity. Our model offers two key advantages: semantic-awareness and granularity-abundance. To achieve semantic-awareness, we consolidate multiple datasets across three granularities and introduce decoupled classification for objects and parts. This allows our model to capture rich semantic information. For the multi-granularity capability, we propose a multi-choice learning scheme during training, enabling each click to generate masks at multiple levels that correspond to multiple ground-truth masks. Notably, this work represents the first attempt to jointly train a model on SA-1B, generic, and part segmentation datasets. Experimental results and visualizations demonstrate that our model successfully achieves semantic-awareness and granularity-abundance. Furthermore, combining SA-1B training with other segmentation tasks, such as panoptic and part segmentation, leads to performance improvements. We will provide code and a demo for further exploration and evaluation.
PDF221December 15, 2024