UnSAMv2: Самоконтролируемое обучение позволяет сегментировать что угодно на любом уровне детализации
UnSAMv2: Self-Supervised Learning Enables Segment Anything at Any Granularity
November 17, 2025
Авторы: Junwei Yu, Trevor Darrell, XuDong Wang
cs.AI
Аннотация
Семейство моделей Segment Anything Model (SAM) стало широко используемой базовой моделью компьютерного зрения, однако его способность контролировать гранулярность сегментации остаётся ограниченной. Пользователям часто приходится вручную уточнять результаты — путём добавления дополнительных промптов или выбора из предварительно сгенерированных масок — для достижения желаемого уровня детализации. Этот процесс может быть неоднозначным, поскольку один и тот же промпт может соответствовать нескольким правдоподобным маскам, а сбор плотных аннотаций для всех уровней гранулярности чрезмерно дорог, что делает контролируемые решения неосуществимыми. Чтобы устранить это ограничение, мы представляем UnSAMv2, который позволяет сегментировать что угодно на любом уровне детализации без участия человека. UnSAMv2 расширяет стратегию разделяй и властвуй модели UnSAM за счёт обнаружения множества пар «маска-гранулярность» и введения нового эмбеддинга контроля гранулярности, который обеспечивает точное, непрерывное управление масштабом сегментации. Примечательно, что всего на 6К немаркированных изображений и с 0.02% дополнительных параметров UnSAMv2 существенно улучшает SAM-2, достигая возможности сегментировать что угодно на любом уровне детализации в интерактивных задачах, задачах сегментации всего изображения и видео. По результатам оценки на более чем 11 бенчмарках, UnSAMv2 улучшает показатели NoC_{90} (5.69 → 4.75), 1-IoU (58.0 → 73.1) и AR_{1000} (49.6 → 68.3), демонстрируя, что небольшие объёмы немаркированных данных в сочетании с методом самообучения с учётом гранулярности могут раскрыть потенциал базовых моделей компьютерного зрения.
English
The Segment Anything Model (SAM) family has become a widely adopted vision foundation model, but its ability to control segmentation granularity remains limited. Users often need to refine results manually - by adding more prompts or selecting from pre-generated masks - to achieve the desired level of detail. This process can be ambiguous, as the same prompt may correspond to several plausible masks, and collecting dense annotations across all granularities is prohibitively expensive, making supervised solutions infeasible. To address this limitation, we introduce UnSAMv2, which enables segment anything at any granularity without human annotations. UnSAMv2 extends the divide-and-conquer strategy of UnSAM by discovering abundant mask-granularity pairs and introducing a novel granularity control embedding that enables precise, continuous control over segmentation scale. Remarkably, with only 6K unlabeled images and 0.02% additional parameters, UnSAMv2 substantially enhances SAM-2, achieving segment anything at any granularity across interactive, whole-image, and video segmentation tasks. Evaluated on over 11 benchmarks, UnSAMv2 improves NoC_{90} (5.69 rightarrow 4.75), 1-IoU (58.0 rightarrow 73.1), and AR_{1000} (49.6 rightarrow 68.3), showing that small amounts of unlabeled data with a granularity-aware self-supervised learning method can unlock the potential of vision foundation models.