UnSAMv2 : L'apprentissage auto-supervisé permet de segmenter n'importe quoi à n'importe quelle granularité
UnSAMv2: Self-Supervised Learning Enables Segment Anything at Any Granularity
November 17, 2025
papers.authors: Junwei Yu, Trevor Darrell, XuDong Wang
cs.AI
papers.abstract
La famille de modèles Segment Anything (SAM) est devenue un modèle de vision fondamental largement adopté, mais sa capacité à contrôler la granularité de la segmentation reste limitée. Les utilisateurs doivent souvent affiner manuellement les résultats - en ajoutant plus d'invites ou en sélectionnant parmi des masques pré-générés - pour obtenir le niveau de détail souhaité. Ce processus peut être ambigu, car la même invite peut correspondre à plusieurs masques plausibles, et la collecte d'annotations denses sur toutes les granularités est prohibitivement coûteuse, rendant les solutions supervisées irréalisables. Pour résoudre cette limitation, nous présentons UnSAMv2, qui permet de segmenter n'importe quoi à n'importe quelle granularité sans annotations humaines. UnSAMv2 étend la stratégie diviser-pour-régner d'UnSAM en découvrant de nombreuses paires masque-granularité et en introduisant un nouveau plongement de contrôle de granularité permettant un contrôle continu et précis de l'échelle de segmentation. Fait remarquable, avec seulement 6 000 images non étiquetées et 0,02 % de paramètres supplémentaires, UnSAMv2 améliore considérablement SAM-2, permettant une segmentation à toute granularité dans les tâches de segmentation interactive, d'image entière et vidéo. Évalué sur plus de 11 benchmarks, UnSAMv2 améliore le NoC₉₀ (5,69 → 4,75), le 1-IoU (58,0 → 73,1) et l'AR₁₀₀₀ (49,6 → 68,3), démontrant que de petites quantités de données non étiquetées avec une méthode d'apprentissage auto-supervisé sensible à la granularité peuvent libérer le potentiel des modèles de vision fondamentaux.
English
The Segment Anything Model (SAM) family has become a widely adopted vision foundation model, but its ability to control segmentation granularity remains limited. Users often need to refine results manually - by adding more prompts or selecting from pre-generated masks - to achieve the desired level of detail. This process can be ambiguous, as the same prompt may correspond to several plausible masks, and collecting dense annotations across all granularities is prohibitively expensive, making supervised solutions infeasible. To address this limitation, we introduce UnSAMv2, which enables segment anything at any granularity without human annotations. UnSAMv2 extends the divide-and-conquer strategy of UnSAM by discovering abundant mask-granularity pairs and introducing a novel granularity control embedding that enables precise, continuous control over segmentation scale. Remarkably, with only 6K unlabeled images and 0.02% additional parameters, UnSAMv2 substantially enhances SAM-2, achieving segment anything at any granularity across interactive, whole-image, and video segmentation tasks. Evaluated on over 11 benchmarks, UnSAMv2 improves NoC_{90} (5.69 rightarrow 4.75), 1-IoU (58.0 rightarrow 73.1), and AR_{1000} (49.6 rightarrow 68.3), showing that small amounts of unlabeled data with a granularity-aware self-supervised learning method can unlock the potential of vision foundation models.