arXiv: 2511.13714v1
UnSAMv2: Самообучение позволяет сегментировать что угодно на любом уровне детализации
UnSAMv2: Self-Supervised Learning Enables Segment Anything at Any Granularity
November 17, 2025
Авторы: Junwei Yu, Trevor Darrell, XuDong Wang
cs.CVcs.CVcs.AIcs.LGcs.CV
Аннотация
Семейство моделей Segment Anything Model (SAM) стало широко используемой базовой моделью для задач компьютерного зрения, однако её способность контролировать гранулярность сегментации остаётся ограниченной. Пользователям часто приходится вручную уточнять результаты — добавляя дополнительные подсказки или выбирая из предварительно сгенерированных масок — для достижения желаемого уровня детализации. Этот процесс может быть неоднозначным, поскольку одна и та же подсказка может соответствовать нескольким правдоподобным маскам, а сбор плотных аннотаций для всех уровней гранулярности является чрезмерно затратным, что делает контролируемые решения неосуществимыми. Чтобы устранить это ограничение, мы представляем UnSAMv2, который позволяет сегментировать что угодно на любом уровне гранулярности без участия человека. UnSAMv2 расширяет стратегию «разделяй и властвуй» модели UnSAM, обнаруживая множество пар «маска-гранулярность» и вводя новое встраивание для контроля гранулярности, которое обеспечивает точное и непрерывное управление масштабом сегментации. Примечательно, что с использованием всего $6$ тыс. немаркированных изображений и $0.02\%$ дополнительных параметров UnSAMv2 значительно улучшает SAM-2, достигая возможности сегментировать что угодно на любом уровне гранулярности в задачах интерактивной, полнокадровой и видеосегментации. Оцененная на более чем $11$ бенчмарках, UnSAMv2 улучшает показатели $\text{NoC}_{90}$ (5.69 $\rightarrow$ 4.75), 1-IoU (58.0 $\rightarrow$ 73.1) и $\text{AR}_{1000}$ (49.6 $\rightarrow$ 68.3), демонстрируя, что небольшое количество немаркированных данных в сочетании с методом самообучения, учитывающим гранулярность, может раскрыть потенциал базовых моделей компьютерного зрения.
English
The Segment Anything Model (SAM) family has become a widely adopted vision foundation model, but its ability to control segmentation granularity remains limited. Users often need to refine results manually - by adding more prompts or selecting from pre-generated masks - to achieve the desired level of detail. This process can be ambiguous, as the same prompt may correspond to several plausible masks, and collecting dense annotations across all granularities is prohibitively expensive, making supervised solutions infeasible. To address this limitation, we introduce UnSAMv2, which enables segment anything at any granularity without human annotations. UnSAMv2 extends the divide-and-conquer strategy of UnSAM by discovering abundant mask-granularity pairs and introducing a novel granularity control embedding that enables precise, continuous control over segmentation scale. Remarkably, with only $6$K unlabeled images and $0.02\%$ additional parameters, UnSAMv2 substantially enhances SAM-2, achieving segment anything at any granularity across interactive, whole-image, and video segmentation tasks. Evaluated on over $11$ benchmarks, UnSAMv2 improves $\text{NoC}_{90}$ (5.69 $\rightarrow$ 4.75), 1-IoU (58.0 $\rightarrow$ 73.1), and $\text{AR}_{1000}$ (49.6 $\rightarrow$ 68.3), showing that small amounts of unlabeled data with a granularity-aware self-supervised learning method can unlock the potential of vision foundation models.