UnSAMv2: L'Apprendimento Auto-Supervisionato Abilita la Segmentazione di Qualsiasi Cosa a Qualsiasi Granularità
UnSAMv2: Self-Supervised Learning Enables Segment Anything at Any Granularity
November 17, 2025
Autori: Junwei Yu, Trevor Darrell, XuDong Wang
cs.AI
Abstract
La famiglia di modelli Segment Anything (SAM) è diventata un modello di fondazione visivo ampiamente adottato, ma la sua capacità di controllare la granularità della segmentazione rimane limitata. Gli utenti spesso devono affinare manualmente i risultati - aggiungendo ulteriori prompt o selezionando tra maschere pre-generate - per ottenere il livello di dettaglio desiderato. Questo processo può essere ambiguo, poiché lo stesso prompt può corrispondere a diverse maschere plausibili, e raccogliere annotazioni dense su tutte le granularità è proibitivamente costoso, rendendo impraticabili soluzioni supervisionate. Per affrontare questa limitazione, introduciamo UnSAMv2, che consente di segmentare qualsiasi cosa a qualsiasi granularità senza annotazioni umane. UnSAMv2 estende la strategia divide-et-impera di UnSAM scoprendo coppie maschera-granularità abbondanti e introducendo un nuovo embedding di controllo della granularità che consente un controllo preciso e continuo sulla scala di segmentazione. Notevolmente, con soli 6K immagini non etichettate e lo 0.02% di parametri aggiuntivi, UnSAMv2 migliora sostanzialmente SAM-2, raggiungendo la segmentazione di qualsiasi cosa a qualsiasi granularità attraverso compiti di segmentazione interattiva, d'immagine intera e video. Valutato su oltre 11 benchmark, UnSAMv2 migliora NoC₉₀ (5.69 → 4.75), 1-IoU (58.0 → 73.1) e AR₁₀₀₀ (49.6 → 68.3), dimostrando che piccole quantità di dati non etichettati con un metodo di auto-apprendimento consapevole della granularità possono sbloccare il potenziale dei modelli di fondazione visivi.
English
The Segment Anything Model (SAM) family has become a widely adopted vision foundation model, but its ability to control segmentation granularity remains limited. Users often need to refine results manually - by adding more prompts or selecting from pre-generated masks - to achieve the desired level of detail. This process can be ambiguous, as the same prompt may correspond to several plausible masks, and collecting dense annotations across all granularities is prohibitively expensive, making supervised solutions infeasible. To address this limitation, we introduce UnSAMv2, which enables segment anything at any granularity without human annotations. UnSAMv2 extends the divide-and-conquer strategy of UnSAM by discovering abundant mask-granularity pairs and introducing a novel granularity control embedding that enables precise, continuous control over segmentation scale. Remarkably, with only 6K unlabeled images and 0.02% additional parameters, UnSAMv2 substantially enhances SAM-2, achieving segment anything at any granularity across interactive, whole-image, and video segmentation tasks. Evaluated on over 11 benchmarks, UnSAMv2 improves NoC_{90} (5.69 rightarrow 4.75), 1-IoU (58.0 rightarrow 73.1), and AR_{1000} (49.6 rightarrow 68.3), showing that small amounts of unlabeled data with a granularity-aware self-supervised learning method can unlock the potential of vision foundation models.