arXiv: 2511.13714v1
UnSAMv2: Aprendizaje Autosupervisado Permite Segmentar Cualquier Objeto a Cualquier Granularidad
UnSAMv2: Self-Supervised Learning Enables Segment Anything at Any Granularity
November 17, 2025
Autores: Junwei Yu, Trevor Darrell, XuDong Wang
cs.CVcs.CVcs.AIcs.LGcs.CV
Resumen
La familia de modelos Segment Anything Model (SAM) se ha convertido en un modelo de visión base ampliamente adoptado, pero su capacidad para controlar la granularidad de la segmentación sigue siendo limitada. Los usuarios a menudo necesitan refinar los resultados manualmente, ya sea añadiendo más indicaciones o seleccionando entre máscaras pregeneradas, para alcanzar el nivel de detalle deseado. Este proceso puede resultar ambiguo, ya que la misma indicación puede corresponder a varias máscaras plausibles, y recolectar anotaciones densas en todas las granularidades es prohibitivamente costoso, lo que hace inviables las soluciones supervisadas. Para abordar esta limitación, presentamos UnSAMv2, que permite segmentar cualquier cosa a cualquier granularidad sin necesidad de anotaciones humanas. UnSAMv2 extiende la estrategia de divide y vencerás de UnSAM al descubrir abundantes pares de máscara-granularidad e introducir una nueva incrustación de control de granularidad que permite un control preciso y continuo sobre la escala de segmentación. Notablemente, con solo $6$K imágenes no etiquetadas y un $0.02\%$ adicional de parámetros, UnSAMv2 mejora sustancialmente a SAM-2, logrando segmentar cualquier cosa a cualquier granularidad en tareas de segmentación interactiva, de imagen completa y de video. Evaluado en más de $11$ benchmarks, UnSAMv2 mejora $\text{NoC}_{90}$ (5.69 $\rightarrow$ 4.75), 1-IoU (58.0 $\rightarrow$ 73.1) y $\text{AR}_{1000}$ (49.6 $\rightarrow$ 68.3), demostrando que pequeñas cantidades de datos no etiquetados con un método de aprendizaje autosupervisado consciente de la granularidad pueden desbloquear el potencial de los modelos de visión base.
English
The Segment Anything Model (SAM) family has become a widely adopted vision foundation model, but its ability to control segmentation granularity remains limited. Users often need to refine results manually - by adding more prompts or selecting from pre-generated masks - to achieve the desired level of detail. This process can be ambiguous, as the same prompt may correspond to several plausible masks, and collecting dense annotations across all granularities is prohibitively expensive, making supervised solutions infeasible. To address this limitation, we introduce UnSAMv2, which enables segment anything at any granularity without human annotations. UnSAMv2 extends the divide-and-conquer strategy of UnSAM by discovering abundant mask-granularity pairs and introducing a novel granularity control embedding that enables precise, continuous control over segmentation scale. Remarkably, with only $6$K unlabeled images and $0.02\%$ additional parameters, UnSAMv2 substantially enhances SAM-2, achieving segment anything at any granularity across interactive, whole-image, and video segmentation tasks. Evaluated on over $11$ benchmarks, UnSAMv2 improves $\text{NoC}_{90}$ (5.69 $\rightarrow$ 4.75), 1-IoU (58.0 $\rightarrow$ 73.1), and $\text{AR}_{1000}$ (49.6 $\rightarrow$ 68.3), showing that small amounts of unlabeled data with a granularity-aware self-supervised learning method can unlock the potential of vision foundation models.