Unüberwachte universelle Bildsegmentierung

papers.abstract

Mehrere unüberwachte Ansätze zur Bildsegmentierung wurden vorgeschlagen, die den Bedarf an dichten, manuell annotierten Segmentierungsmasken eliminieren; aktuelle Modelle behandeln entweder semantische Segmentierung (z.B. STEGO) oder klassenagnostische Instanzsegmentierung (z.B. CutLER) separat, jedoch nicht beides (d.h. panoptische Segmentierung). Wir schlagen ein Unsupervised Universal Segmentation-Modell (U2Seg) vor, das in der Lage ist, verschiedene Bildsegmentierungsaufgaben – Instanz-, Semantik- und Panoptiksegmentierung – mithilfe eines neuartigen, einheitlichen Frameworks durchzuführen. U2Seg generiert pseudo-semantische Labels für diese Segmentierungsaufgaben, indem es selbstüberwachte Modelle nutzt, gefolgt von Clustering; jeder Cluster repräsentiert unterschiedliche semantische und/oder Instanzzugehörigkeiten von Pixeln. Anschließend trainieren wir das Modell selbstständig auf diesen pseudo-semantischen Labels, was erhebliche Leistungssteigerungen gegenüber spezialisierten Methoden für jede Aufgabe erzielt: ein +2,6 AP^{box}-Anstieg gegenüber CutLER bei der unüberwachten Instanzsegmentierung auf COCO und eine +7,0 PixelAcc-Steigerung (gegenüber STEGO) bei der unüberwachten semantischen Segmentierung auf COCOStuff. Darüber hinaus setzt unsere Methode einen neuen Maßstab für die unüberwachte panoptische Segmentierung, die bisher nicht erforscht wurde. U2Seg ist auch ein starkes vortrainiertes Modell für Few-Shot-Segmentierung und übertrifft CutLER um +5,0 AP^{mask}, wenn es mit wenig Daten trainiert wird, z.B. nur 1% der COCO-Labels. Wir hoffen, dass unsere einfache, aber effektive Methode weitere Forschungen zur unüberwachten universellen Bildsegmentierung inspirieren kann.

English

Several unsupervised image segmentation approaches have been proposed which eliminate the need for dense manually-annotated segmentation masks; current models separately handle either semantic segmentation (e.g., STEGO) or class-agnostic instance segmentation (e.g., CutLER), but not both (i.e., panoptic segmentation). We propose an Unsupervised Universal Segmentation model (U2Seg) adept at performing various image segmentation tasks -- instance, semantic and panoptic -- using a novel unified framework. U2Seg generates pseudo semantic labels for these segmentation tasks via leveraging self-supervised models followed by clustering; each cluster represents different semantic and/or instance membership of pixels. We then self-train the model on these pseudo semantic labels, yielding substantial performance gains over specialized methods tailored to each task: a +2.6 AP^{box} boost vs. CutLER in unsupervised instance segmentation on COCO and a +7.0 PixelAcc increase (vs. STEGO) in unsupervised semantic segmentation on COCOStuff. Moreover, our method sets up a new baseline for unsupervised panoptic segmentation, which has not been previously explored. U2Seg is also a strong pretrained model for few-shot segmentation, surpassing CutLER by +5.0 AP^{mask} when trained on a low-data regime, e.g., only 1% COCO labels. We hope our simple yet effective method can inspire more research on unsupervised universal image segmentation.

Unüberwachte universelle Bildsegmentierung

Unsupervised Universal Image Segmentation

papers.abstract

Support