UnSAMv2 : L'apprentissage auto-supervisé permet de segmenter tout objet à toute granularité

Résumé

La famille de modèles Segment Anything Model (SAM) est devenue un modèle de base largement adopté en vision par ordinateur, mais sa capacité à contrôler la granularité de la segmentation reste limitée. Les utilisateurs doivent souvent affiner manuellement les résultats - en ajoutant davantage d'invites ou en sélectionnant parmi des masques pré-générés - pour atteindre le niveau de détail souhaité. Ce processus peut être ambigu, car la même invite peut correspondre à plusieurs masques plausibles, et la collecte d'annotations denses pour toutes les granularités est prohibitivement coûteuse, rendant les solutions supervisées irréalisables. Pour pallier cette limitation, nous introduisons UnSAMv2, qui permet de segmenter à n'importe quelle granularité sans annotations humaines. UnSAMv2 étend la stratégie de division et de conquête d'UnSAM en découvrant de nombreuses paires masque-granularité et en introduisant un nouvel encodage de contrôle de granularité qui permet un contrôle précis et continu de l'échelle de segmentation. De manière remarquable, avec seulement 6 000 images non annotées et 0,02 % de paramètres supplémentaires, UnSAMv2 améliore considérablement SAM-2, permettant une segmentation à n'importe quelle granularité dans des tâches interactives, d'image entière et de vidéo. Évalué sur plus de 11 benchmarks, UnSAMv2 améliore $\text{NoC}_{90}$ (5,69 $\rightarrow$ 4,75), 1-IoU (58,0 $\rightarrow$ 73,1) et $\text{AR}_{1000}$ (49,6 $\rightarrow$ 68,3), démontrant que de petites quantités de données non annotées avec une méthode d'apprentissage auto-supervisé sensible à la granularité peuvent libérer le potentiel des modèles de base en vision par ordinateur.

English

The Segment Anything Model (SAM) family has become a widely adopted vision foundation model, but its ability to control segmentation granularity remains limited. Users often need to refine results manually - by adding more prompts or selecting from pre-generated masks - to achieve the desired level of detail. This process can be ambiguous, as the same prompt may correspond to several plausible masks, and collecting dense annotations across all granularities is prohibitively expensive, making supervised solutions infeasible. To address this limitation, we introduce UnSAMv2, which enables segment anything at any granularity without human annotations. UnSAMv2 extends the divide-and-conquer strategy of UnSAM by discovering abundant mask-granularity pairs and introducing a novel granularity control embedding that enables precise, continuous control over segmentation scale. Remarkably, with only $6$K unlabeled images and $0.02\%$ additional parameters, UnSAMv2 substantially enhances SAM-2, achieving segment anything at any granularity across interactive, whole-image, and video segmentation tasks. Evaluated on over $11$ benchmarks, UnSAMv2 improves $\text{NoC}_{90}$ (5.69 $\rightarrow$ 4.75), 1-IoU (58.0 $\rightarrow$ 73.1), and $\text{AR}_{1000}$ (49.6 $\rightarrow$ 68.3), showing that small amounts of unlabeled data with a granularity-aware self-supervised learning method can unlock the potential of vision foundation models.

UnSAMv2 : L'apprentissage auto-supervisé permet de segmenter tout objet à toute granularité

UnSAMv2: Self-Supervised Learning Enables Segment Anything at Any Granularity

Résumé

Support