UnSAMv2: Selbstüberwachtes Lernen ermöglicht Segmentierung in beliebiger Granularität

Zusammenfassung

Die Segment-Anything-Model (SAM)-Familie hat sich als weit verbreitetes visuelles Basismodell etabliert, doch ihre Fähigkeit, die Segmentierungsgranularität zu steuern, bleibt begrenzt. Benutzer müssen die Ergebnisse oft manuell verfeinern – durch das Hinzufügen weiterer Prompts oder die Auswahl aus vorgefertigten Masken –, um das gewünschte Detailniveau zu erreichen. Dieser Prozess kann mehrdeutig sein, da derselbe Prompt mehreren plausiblen Masken entsprechen kann, und die Erfassung dichter Annotationen über alle Granularitäten hinweg ist unverhältnismäßig aufwendig, was überwachte Lösungen unpraktikabel macht. Um diese Einschränkung zu überwinden, stellen wir UnSAMv2 vor, das eine Segmentierung in beliebiger Granularität ohne menschliche Annotationen ermöglicht. UnSAMv2 erweitert die Divide-and-Conquer-Strategie von UnSAM, indem es zahlreiche Masken-Granularitäts-Paare entdeckt und eine neuartige Granularitätssteuerungs-Einbettung einführt, die eine präzise, kontinuierliche Steuerung der Segmentierungsskala ermöglicht. Bemerkenswerterweise verbessert UnSAMv2 mit nur 6.000 unmarkierten Bildern und 0,02 % zusätzlichen Parametern SAM-2 erheblich und ermöglicht eine Segmentierung in beliebiger Granularität über interaktive, gesamte Bild- und Video-Segmentierungsaufgaben hinweg. In über 11 Benchmarks bewertet, verbessert UnSAMv2 $\text{NoC}_{90}$ (5,69 $\rightarrow$ 4,75), 1-IoU (58,0 $\rightarrow$ 73,1) und $\text{AR}_{1000}$ (49,6 $\rightarrow$ 68,3), was zeigt, dass geringe Mengen unmarkierter Daten mit einer granularitätsbewussten selbstüberwachten Lernmethode das Potenzial visueller Basismodelle freisetzen können.

English

The Segment Anything Model (SAM) family has become a widely adopted vision foundation model, but its ability to control segmentation granularity remains limited. Users often need to refine results manually - by adding more prompts or selecting from pre-generated masks - to achieve the desired level of detail. This process can be ambiguous, as the same prompt may correspond to several plausible masks, and collecting dense annotations across all granularities is prohibitively expensive, making supervised solutions infeasible. To address this limitation, we introduce UnSAMv2, which enables segment anything at any granularity without human annotations. UnSAMv2 extends the divide-and-conquer strategy of UnSAM by discovering abundant mask-granularity pairs and introducing a novel granularity control embedding that enables precise, continuous control over segmentation scale. Remarkably, with only $6$K unlabeled images and $0.02\%$ additional parameters, UnSAMv2 substantially enhances SAM-2, achieving segment anything at any granularity across interactive, whole-image, and video segmentation tasks. Evaluated on over $11$ benchmarks, UnSAMv2 improves $\text{NoC}_{90}$ (5.69 $\rightarrow$ 4.75), 1-IoU (58.0 $\rightarrow$ 73.1), and $\text{AR}_{1000}$ (49.6 $\rightarrow$ 68.3), showing that small amounts of unlabeled data with a granularity-aware self-supervised learning method can unlock the potential of vision foundation models.

UnSAMv2: Selbstüberwachtes Lernen ermöglicht Segmentierung in beliebiger Granularität

UnSAMv2: Self-Supervised Learning Enables Segment Anything at Any Granularity

Zusammenfassung

Support