UnSAMv2: Aprendizagem Autossupervisionada Permite Segmentar Qualquer Coisa em Qualquer Granularidade
UnSAMv2: Self-Supervised Learning Enables Segment Anything at Any Granularity
November 17, 2025
Autores: Junwei Yu, Trevor Darrell, XuDong Wang
cs.AI
Resumo
A família Segment Anything Model (SAM) tornou-se um modelo de base de visão amplamente adotado, mas sua capacidade de controlar a granularidade da segmentação permanece limitada. Os usuários frequentemente precisam refinar os resultados manualmente - adicionando mais prompts ou selecionando entre máscaras pré-geradas - para alcançar o nível de detalhe desejado. Este processo pode ser ambíguo, pois o mesmo prompt pode corresponder a várias máscaras plausíveis, e a coleta de anotações densas em todas as granularidades é proibitivamente cara, tornando soluções supervisionadas inviáveis. Para superar esta limitação, introduzimos o UnSAMv2, que permite segmentar qualquer coisa em qualquer granularidade sem anotações humanas. O UnSAMv2 estende a estratégia de dividir e conquistar do UnSAM ao descobrir pares abundantes de máscara-granularidade e introduzir uma nova incorporação de controle de granularidade que permite um controle contínuo e preciso sobre a escala de segmentação. Notavelmente, com apenas 6K imagens não rotuladas e 0,02% de parâmetros adicionais, o UnSAMv2 aprimora substancialmente o SAM-2, alcançando a segmentação de qualquer coisa em qualquer granularidade em tarefas de segmentação interativa, de imagem inteira e de vídeo. Avaliado em mais de 11 benchmarks, o UnSAMv2 melhora NoC_{90} (5,69 → 4,75), 1-IoU (58,0 → 73,1) e AR_{1000} (49,6 → 68,3), demonstrando que pequenas quantidades de dados não rotulados com um método de autoaprendizagem consciente da granularidade podem desbloquear o potencial dos modelos de base de visão.
English
The Segment Anything Model (SAM) family has become a widely adopted vision foundation model, but its ability to control segmentation granularity remains limited. Users often need to refine results manually - by adding more prompts or selecting from pre-generated masks - to achieve the desired level of detail. This process can be ambiguous, as the same prompt may correspond to several plausible masks, and collecting dense annotations across all granularities is prohibitively expensive, making supervised solutions infeasible. To address this limitation, we introduce UnSAMv2, which enables segment anything at any granularity without human annotations. UnSAMv2 extends the divide-and-conquer strategy of UnSAM by discovering abundant mask-granularity pairs and introducing a novel granularity control embedding that enables precise, continuous control over segmentation scale. Remarkably, with only 6K unlabeled images and 0.02% additional parameters, UnSAMv2 substantially enhances SAM-2, achieving segment anything at any granularity across interactive, whole-image, and video segmentation tasks. Evaluated on over 11 benchmarks, UnSAMv2 improves NoC_{90} (5.69 rightarrow 4.75), 1-IoU (58.0 rightarrow 73.1), and AR_{1000} (49.6 rightarrow 68.3), showing that small amounts of unlabeled data with a granularity-aware self-supervised learning method can unlock the potential of vision foundation models.