Unüberwachte universelle Bildsegmentierung
Unsupervised Universal Image Segmentation
December 28, 2023
Autoren: Dantong Niu, Xudong Wang, Xinyang Han, Long Lian, Roei Herzig, Trevor Darrell
cs.AI
Zusammenfassung
Mehrere unüberwachte Ansätze zur Bildsegmentierung wurden vorgeschlagen, die den Bedarf an dichten, manuell annotierten Segmentierungsmasken eliminieren; aktuelle Modelle behandeln entweder semantische Segmentierung (z.B. STEGO) oder klassenagnostische Instanzsegmentierung (z.B. CutLER) separat, jedoch nicht beides (d.h. panoptische Segmentierung). Wir schlagen ein Unsupervised Universal Segmentation-Modell (U2Seg) vor, das in der Lage ist, verschiedene Bildsegmentierungsaufgaben – Instanz-, Semantik- und Panoptiksegmentierung – mithilfe eines neuartigen, einheitlichen Frameworks durchzuführen. U2Seg generiert pseudo-semantische Labels für diese Segmentierungsaufgaben, indem es selbstüberwachte Modelle nutzt, gefolgt von Clustering; jeder Cluster repräsentiert unterschiedliche semantische und/oder Instanzzugehörigkeiten von Pixeln. Anschließend trainieren wir das Modell selbstständig auf diesen pseudo-semantischen Labels, was erhebliche Leistungssteigerungen gegenüber spezialisierten Methoden für jede Aufgabe erzielt: ein +2,6 AP^{box}-Anstieg gegenüber CutLER bei der unüberwachten Instanzsegmentierung auf COCO und eine +7,0 PixelAcc-Steigerung (gegenüber STEGO) bei der unüberwachten semantischen Segmentierung auf COCOStuff. Darüber hinaus setzt unsere Methode einen neuen Maßstab für die unüberwachte panoptische Segmentierung, die bisher nicht erforscht wurde. U2Seg ist auch ein starkes vortrainiertes Modell für Few-Shot-Segmentierung und übertrifft CutLER um +5,0 AP^{mask}, wenn es mit wenig Daten trainiert wird, z.B. nur 1% der COCO-Labels. Wir hoffen, dass unsere einfache, aber effektive Methode weitere Forschungen zur unüberwachten universellen Bildsegmentierung inspirieren kann.
English
Several unsupervised image segmentation approaches have been proposed which
eliminate the need for dense manually-annotated segmentation masks; current
models separately handle either semantic segmentation (e.g., STEGO) or
class-agnostic instance segmentation (e.g., CutLER), but not both (i.e.,
panoptic segmentation). We propose an Unsupervised Universal Segmentation model
(U2Seg) adept at performing various image segmentation tasks -- instance,
semantic and panoptic -- using a novel unified framework. U2Seg generates
pseudo semantic labels for these segmentation tasks via leveraging
self-supervised models followed by clustering; each cluster represents
different semantic and/or instance membership of pixels. We then self-train the
model on these pseudo semantic labels, yielding substantial performance gains
over specialized methods tailored to each task: a +2.6 AP^{box} boost
vs. CutLER in unsupervised instance segmentation on COCO and a +7.0 PixelAcc
increase (vs. STEGO) in unsupervised semantic segmentation on COCOStuff.
Moreover, our method sets up a new baseline for unsupervised panoptic
segmentation, which has not been previously explored. U2Seg is also a strong
pretrained model for few-shot segmentation, surpassing CutLER by +5.0
AP^{mask} when trained on a low-data regime, e.g., only 1% COCO
labels. We hope our simple yet effective method can inspire more research on
unsupervised universal image segmentation.