UnSAMv2:自己教師あり学習による任意の粒度でのセグメンテーション実現
UnSAMv2: Self-Supervised Learning Enables Segment Anything at Any Granularity
November 17, 2025
著者: Junwei Yu, Trevor Darrell, XuDong Wang
cs.AI
要旨
Segment Anything Model(SAM)ファミリーは広く採用されている視覚基盤モデルとなったが、セグメンテーションの粒度制御能力には依然として限界がある。ユーザーは所望の詳細度を達成するために、より多くのプロンプトを追加したり、事前生成されたマスクから選択したりする手作業による結果の調整を必要とすることが多い。同一のプロンプトが複数の妥当なマスクに対応し得るため、このプロセスは曖昧になりがちであり、全粒度にわたる密なアノテーション収集は非現実的なコストがかかるため、教師ありソリューションは実現不可能である。この課題を解決するため、我々は人的アノテーションを必要とせず任意の粒度でのセグメンテーションを可能にするUnSAMv2を提案する。UnSAMv2は、豊富なマスク・粒度ペアを発見し、セグメンテーションスケールを精密かつ連続的に制御可能な新規の粒度制御埋め込みを導入することで、UnSAMの分割統治戦略を拡張する。驚くべきことに、6K枚の未ラベル画像と0.02%の追加パラメータのみで、UnSAMv2はSAM-2を大幅に強化し、対話的セグメンテーション・画像全体セグメンテーション・動画セグメンテーションの各タスクにわたって任意の粒度でのセグメンテーションを実現する。11以上のベンチマークで評価した結果、UnSAMv2はNoC_{90}(5.69→4.75)、1-IoU(58.0→73.1)、AR_{1000}(49.6→68.3)を改善し、少量の未ラベルデータと粒度を考慮した自己教師あり学習手法によって視覚基盤モデルの潜在能力を解放できることを示した。
English
The Segment Anything Model (SAM) family has become a widely adopted vision foundation model, but its ability to control segmentation granularity remains limited. Users often need to refine results manually - by adding more prompts or selecting from pre-generated masks - to achieve the desired level of detail. This process can be ambiguous, as the same prompt may correspond to several plausible masks, and collecting dense annotations across all granularities is prohibitively expensive, making supervised solutions infeasible. To address this limitation, we introduce UnSAMv2, which enables segment anything at any granularity without human annotations. UnSAMv2 extends the divide-and-conquer strategy of UnSAM by discovering abundant mask-granularity pairs and introducing a novel granularity control embedding that enables precise, continuous control over segmentation scale. Remarkably, with only 6K unlabeled images and 0.02% additional parameters, UnSAMv2 substantially enhances SAM-2, achieving segment anything at any granularity across interactive, whole-image, and video segmentation tasks. Evaluated on over 11 benchmarks, UnSAMv2 improves NoC_{90} (5.69 rightarrow 4.75), 1-IoU (58.0 rightarrow 73.1), and AR_{1000} (49.6 rightarrow 68.3), showing that small amounts of unlabeled data with a granularity-aware self-supervised learning method can unlock the potential of vision foundation models.