ChatPaper.aiChatPaper

UnSAMv2: Selbstüberwachtes Lernen ermöglicht Segmentierung bei beliebiger Granularität

UnSAMv2: Self-Supervised Learning Enables Segment Anything at Any Granularity

November 17, 2025
papers.authors: Junwei Yu, Trevor Darrell, XuDong Wang
cs.AI

papers.abstract

Die Segment-Anything-Model-Familie (SAM) hat sich als weit verbreitetes Vision-Foundation-Modell etabliert, doch ihre Fähigkeit, die Segmentierungsgranularität zu steuern, bleibt begrenzt. Benutzer müssen Ergebnisse oft manuell verfeinern – durch Hinzufügen weiterer Prompts oder Auswahl aus vorab generierten Masken – um das gewünschte Detaillierungsniveau zu erreichen. Dieser Prozess ist häufig mehrdeutig, da derselbe Prompt mehreren plausiblen Masken entsprechen kann, und die Erfassung dichter Annotationen über alle Granularitäten hinweg ist unverhältnismäßig aufwändig, was überwachte Lösungen unpraktikabel macht. Um diese Einschränkung zu adressieren, stellen wir UnSAMv2 vor, das Segmentierung in beliebiger Granularität ohne menschliche Annotationen ermöglicht. UnSAMv2 erweitert die Divide-and-Conquer-Strategie von UnSAM, indem es zahlreiche Masken-Granularitäts-Paare entdeckt und eine neuartige Granularitätssteuerungs-Einbettung einführt, die eine präzise, kontinuierliche Kontrolle des Segmentierungsmaßstabs ermöglicht. Bemerkenswerterweise verbessert UnSAMv2 mit nur 6.000 ungelabelten Bildern und 0,02 % zusätzlichen Parametern SAM-2 erheblich und erreicht Segmentierung in beliebiger Granularität über interaktive, ganzbild- und videobasierte Segmentierungsaufgaben hinweg. In Evaluierungen auf über 11 Benchmarks verbessert UnSAMv2 NoC₉₀ (5,69 → 4,75), 1-IoU (58,0 → 73,1) und AR₁₀₀₀ (49,6 → 68,3) und zeigt, dass geringe Mengen ungelabelter Daten mit einer granularitätsbewussten selbstüberwachten Lernmethode das Potenzial von Vision-Foundation-Modellen freisetzen können.
English
The Segment Anything Model (SAM) family has become a widely adopted vision foundation model, but its ability to control segmentation granularity remains limited. Users often need to refine results manually - by adding more prompts or selecting from pre-generated masks - to achieve the desired level of detail. This process can be ambiguous, as the same prompt may correspond to several plausible masks, and collecting dense annotations across all granularities is prohibitively expensive, making supervised solutions infeasible. To address this limitation, we introduce UnSAMv2, which enables segment anything at any granularity without human annotations. UnSAMv2 extends the divide-and-conquer strategy of UnSAM by discovering abundant mask-granularity pairs and introducing a novel granularity control embedding that enables precise, continuous control over segmentation scale. Remarkably, with only 6K unlabeled images and 0.02% additional parameters, UnSAMv2 substantially enhances SAM-2, achieving segment anything at any granularity across interactive, whole-image, and video segmentation tasks. Evaluated on over 11 benchmarks, UnSAMv2 improves NoC_{90} (5.69 rightarrow 4.75), 1-IoU (58.0 rightarrow 73.1), and AR_{1000} (49.6 rightarrow 68.3), showing that small amounts of unlabeled data with a granularity-aware self-supervised learning method can unlock the potential of vision foundation models.
PDF102December 1, 2025