UnSAMv2: 자기 지도 학습을 통한 임의의 세분화 수준에서의 모든 것 분할 가능
UnSAMv2: Self-Supervised Learning Enables Segment Anything at Any Granularity
November 17, 2025
저자: Junwei Yu, Trevor Darrell, XuDong Wang
cs.AI
초록
Segment Anything Model(SAM) 계열은 널리 채택된 비전 파운데이션 모델이 되었지만, 분할 세분화 정도를 제어하는 능력은 여전히 제한적입니다. 사용자는 원하는 수준의 세부 사항을 달성하기 위해 더 많은 프롬프트를 추가하거나 사전 생성된 마스크 중에서 선택하는 등 수동으로 결과를 다듬어야 하는 경우가 많습니다. 동일한 프롬프트가 여러 개의 타당한 마스크에 대응될 수 있고, 모든 세분화 수준에 걸쳐 조밀한 주석을 수집하는 것은 비용이 너무 많이 들어 지도 학습 기반 솔루션을 실현하기 어렵기 때문에 이 과정은 모호할 수 있습니다. 이러한 한계를 해결하기 위해 우리는 인간 주석 없이도 어떤 세분화 수준에서나 분할을 가능하게 하는 UnSAMv2를 소개합니다. UnSAMv2는 UnSAM의 분할 정복 전략을 확장하여 풍부한 마스크-세분화 쌍을 발견하고, 분할 규모를 정밀하고 연속적으로 제어할 수 있는 새로운 세분화 제어 임베딩을 도입합니다. 주목할 점은, 단 6K개의 비라벨 이미지와 0.02%의 추가 파라미터만으로 UnSAMv2는 SAM-2를 크게 향상시켜 상호작용 분할, 전체 이미지 분할, 비디오 분할 작업 전반에 걸쳐 어떤 세분화 수준에서도 분할을 가능하게 합니다. 11개 이상의 벤치마크에서 평가한 결과, UnSAMv2는 NoC_{90}(5.69 → 4.75), 1-IoU(58.0 → 73.1), AR_{1000}(49.6 → 68.3) 지표를 개선하여 소량의 비라벨 데이터와 세분화 인식 자기 지도 학습 방법이 비전 파운데이션 모델의 잠재력을 끌어낼 수 있음을 보여줍니다.
English
The Segment Anything Model (SAM) family has become a widely adopted vision foundation model, but its ability to control segmentation granularity remains limited. Users often need to refine results manually - by adding more prompts or selecting from pre-generated masks - to achieve the desired level of detail. This process can be ambiguous, as the same prompt may correspond to several plausible masks, and collecting dense annotations across all granularities is prohibitively expensive, making supervised solutions infeasible. To address this limitation, we introduce UnSAMv2, which enables segment anything at any granularity without human annotations. UnSAMv2 extends the divide-and-conquer strategy of UnSAM by discovering abundant mask-granularity pairs and introducing a novel granularity control embedding that enables precise, continuous control over segmentation scale. Remarkably, with only 6K unlabeled images and 0.02% additional parameters, UnSAMv2 substantially enhances SAM-2, achieving segment anything at any granularity across interactive, whole-image, and video segmentation tasks. Evaluated on over 11 benchmarks, UnSAMv2 improves NoC_{90} (5.69 rightarrow 4.75), 1-IoU (58.0 rightarrow 73.1), and AR_{1000} (49.6 rightarrow 68.3), showing that small amounts of unlabeled data with a granularity-aware self-supervised learning method can unlock the potential of vision foundation models.