ChatPaper.aiChatPaper

UnSAMv2: El Aprendizaje Autosupervisado Permite Segmentar Cualquier Cosa a Cualquier Granularidad

UnSAMv2: Self-Supervised Learning Enables Segment Anything at Any Granularity

November 17, 2025
Autores: Junwei Yu, Trevor Darrell, XuDong Wang
cs.AI

Resumen

La familia de modelos Segment Anything (SAM) se ha consolidado como un modelo de visión por computadora fundamental ampliamente adoptado, pero su capacidad para controlar la granularidad de la segmentación sigue siendo limitada. Los usuarios a menudo necesitan refinar los resultados manualmente —añadiendo más indicaciones o seleccionando entre máscaras pregeneradas— para alcanzar el nivel de detalle deseado. Este proceso puede resultar ambiguo, ya que una misma indicación puede corresponder a varias máscaras plausibles, y recopilar anotaciones densas en todos los niveles de granularidad es prohibitivamente costoso, lo que hace inviables las soluciones supervisadas. Para abordar esta limitación, presentamos UnSAMv2, que permite segmentar cualquier cosa a cualquier granularidad sin anotaciones humanas. UnSAMv2 extiende la estrategia de divide y vencerás de UnSAM mediante el descubrimiento de abundantes pares máscara-granularidad y la introducción de un novedoso embedding de control de granularidad que permite un ajuste preciso y continuo de la escala de segmentación. Notablemente, con solo 6K imágenes no etiquetadas y un 0.02% de parámetros adicionales, UnSAMv2 mejora sustancialmente a SAM-2, logrando segmentar cualquier cosa a cualquier granularidad en tareas de segmentación interactiva, de imagen completa y de video. Evaluado en más de 11 benchmarks, UnSAMv2 mejora las métricas NoC_{90} (5.69 → 4.75), 1-IoU (58.0 → 73.1) y AR_{1000} (49.6 → 68.3), demostrando que pequeñas cantidades de datos no etiquetados con un método de autoaprendizaje consciente de la granularidad pueden liberar el potencial de los modelos fundamentales de visión.
English
The Segment Anything Model (SAM) family has become a widely adopted vision foundation model, but its ability to control segmentation granularity remains limited. Users often need to refine results manually - by adding more prompts or selecting from pre-generated masks - to achieve the desired level of detail. This process can be ambiguous, as the same prompt may correspond to several plausible masks, and collecting dense annotations across all granularities is prohibitively expensive, making supervised solutions infeasible. To address this limitation, we introduce UnSAMv2, which enables segment anything at any granularity without human annotations. UnSAMv2 extends the divide-and-conquer strategy of UnSAM by discovering abundant mask-granularity pairs and introducing a novel granularity control embedding that enables precise, continuous control over segmentation scale. Remarkably, with only 6K unlabeled images and 0.02% additional parameters, UnSAMv2 substantially enhances SAM-2, achieving segment anything at any granularity across interactive, whole-image, and video segmentation tasks. Evaluated on over 11 benchmarks, UnSAMv2 improves NoC_{90} (5.69 rightarrow 4.75), 1-IoU (58.0 rightarrow 73.1), and AR_{1000} (49.6 rightarrow 68.3), showing that small amounts of unlabeled data with a granularity-aware self-supervised learning method can unlock the potential of vision foundation models.
PDF102December 1, 2025