arXiv: 2511.13714v1

UnSAMv2: 自己教師あり学習による任意の粒度でのセグメンテーション実現

UnSAMv2: Self-Supervised Learning Enables Segment Anything at Any Granularity

November 17, 2025
著者: Junwei Yu, Trevor Darrell, XuDong Wang
cs.CVcs.CVcs.AIcs.LGcs.CV

要旨

Segment Anything Model(SAM)ファミリーは広く採用されている視覚基盤モデルであるが、セグメンテーションの粒度を制御する能力には限界がある。ユーザーはしばしば、望ましい詳細レベルを達成するために、手動で結果を調整する必要がある。具体的には、より多くのプロンプトを追加したり、事前に生成されたマスクから選択したりする。このプロセスは曖昧であり、同じプロンプトが複数の妥当なマスクに対応する可能性がある。また、すべての粒度にわたって密なアノテーションを収集することは非常にコストがかかり、教師ありソリューションは実現不可能である。この制限を解決するために、我々はUnSAMv2を導入する。UnSAMv2は、人間のアノテーションなしで任意の粒度でのセグメンテーションを可能にする。UnSAMv2は、UnSAMの分割統治戦略を拡張し、豊富なマスク-粒度ペアを発見し、セグメンテーションスケールを精密かつ連続的に制御する新しい粒度制御埋め込みを導入する。驚くべきことに、わずか6,000枚のラベルなし画像と0.02%の追加パラメータで、UnSAMv2はSAM-2を大幅に強化し、インタラクティブ、全画像、およびビデオセグメンテーションタスクにわたって任意の粒度でのセグメンテーションを実現する。11以上のベンチマークで評価された結果、UnSAMv2は$\text{NoC}_{90}$(5.69 → 4.75)、1-IoU(58.0 → 73.1)、および$\text{AR}_{1000}$(49.6 → 68.3)を改善し、少量のラベルなしデータと粒度を意識した自己教師あり学習方法が視覚基盤モデルの潜在能力を引き出すことを示している。
English
The Segment Anything Model (SAM) family has become a widely adopted vision foundation model, but its ability to control segmentation granularity remains limited. Users often need to refine results manually - by adding more prompts or selecting from pre-generated masks - to achieve the desired level of detail. This process can be ambiguous, as the same prompt may correspond to several plausible masks, and collecting dense annotations across all granularities is prohibitively expensive, making supervised solutions infeasible. To address this limitation, we introduce UnSAMv2, which enables segment anything at any granularity without human annotations. UnSAMv2 extends the divide-and-conquer strategy of UnSAM by discovering abundant mask-granularity pairs and introducing a novel granularity control embedding that enables precise, continuous control over segmentation scale. Remarkably, with only $6$K unlabeled images and $0.02\%$ additional parameters, UnSAMv2 substantially enhances SAM-2, achieving segment anything at any granularity across interactive, whole-image, and video segmentation tasks. Evaluated on over $11$ benchmarks, UnSAMv2 improves $\text{NoC}_{90}$ (5.69 $\rightarrow$ 4.75), 1-IoU (58.0 $\rightarrow$ 73.1), and $\text{AR}_{1000}$ (49.6 $\rightarrow$ 68.3), showing that small amounts of unlabeled data with a granularity-aware self-supervised learning method can unlock the potential of vision foundation models.
PDFNovember 18, 2025