教師なし汎用画像セグメンテーション
Unsupervised Universal Image Segmentation
December 28, 2023
著者: Dantong Niu, Xudong Wang, Xinyang Han, Long Lian, Roei Herzig, Trevor Darrell
cs.AI
要旨
密な手動アノテーションによるセグメンテーションマスクを不要とする、複数の教師なし画像セグメンテーション手法が提案されてきた。現在のモデルは、セマンティックセグメンテーション(例:STEGO)またはクラス非依存のインスタンスセグメンテーション(例:CutLER)のいずれかを個別に扱うが、両方(すなわち、パノプティックセグメンテーション)を同時に扱うものはない。本論文では、インスタンス、セマンティック、パノプティックといった様々な画像セグメンテーションタスクを実行可能な、新たな統一フレームワークを用いた教師なしユニバーサルセグメンテーションモデル(U2Seg)を提案する。U2Segは、自己教師ありモデルを活用した後にクラスタリングを行うことで、これらのセグメンテーションタスクのための擬似セマンティックラベルを生成する。各クラスタは、ピクセルの異なるセマンティックおよび/またはインスタンスの所属を表す。その後、これらの擬似セマンティックラベルを用いてモデルを自己学習させ、各タスクに特化した手法に対して大幅な性能向上を実現する。具体的には、COCOにおける教師なしインスタンスセグメンテーションではCutLERに対して+2.6 AP^{box}の向上、COCOStuffにおける教師なしセマンティックセグメンテーションではSTEGOに対して+7.0 PixelAccの向上を達成した。さらに、本手法は、これまで未開拓であった教師なしパノプティックセグメンテーションの新たなベースラインを確立する。U2Segはまた、少数ショットセグメンテーションのための強力な事前学習モデルでもあり、低データ体制(例:COCOラベルの1%のみ)で学習した場合、CutLERを+5.0 AP^{mask}上回る。本手法のシンプルでありながら効果的なアプローチが、教師なしユニバーサル画像セグメンテーションに関するさらなる研究を刺激することを期待する。
English
Several unsupervised image segmentation approaches have been proposed which
eliminate the need for dense manually-annotated segmentation masks; current
models separately handle either semantic segmentation (e.g., STEGO) or
class-agnostic instance segmentation (e.g., CutLER), but not both (i.e.,
panoptic segmentation). We propose an Unsupervised Universal Segmentation model
(U2Seg) adept at performing various image segmentation tasks -- instance,
semantic and panoptic -- using a novel unified framework. U2Seg generates
pseudo semantic labels for these segmentation tasks via leveraging
self-supervised models followed by clustering; each cluster represents
different semantic and/or instance membership of pixels. We then self-train the
model on these pseudo semantic labels, yielding substantial performance gains
over specialized methods tailored to each task: a +2.6 AP^{box} boost
vs. CutLER in unsupervised instance segmentation on COCO and a +7.0 PixelAcc
increase (vs. STEGO) in unsupervised semantic segmentation on COCOStuff.
Moreover, our method sets up a new baseline for unsupervised panoptic
segmentation, which has not been previously explored. U2Seg is also a strong
pretrained model for few-shot segmentation, surpassing CutLER by +5.0
AP^{mask} when trained on a low-data regime, e.g., only 1% COCO
labels. We hope our simple yet effective method can inspire more research on
unsupervised universal image segmentation.