INSID3 : Segmentation en contexte sans entraînement avec DINOv3

Résumé

La segmentation contextuelle (ICS) vise à segmenter des concepts arbitraires (objets, parties ou instances personnalisées) à partir d'un exemple visuel annoté. Les travaux existants reposent soit (i) sur le fine-tuning de modèles de vision fondamentaux (VFMs), ce qui améliore les résultats en domaine connu mais nuit à la généralisation, soit (ii) sur la combinaison de plusieurs VFMs figés, ce qui préserve la généralisation mais entraîne une complexité architecturale et des granularités de segmentation fixes. Nous revisitons l'ICS sous un angle minimaliste en posant la question : un seul backbone auto-supervisé peut-il à la fois assurer l'appariement sémantique et la segmentation, sans aucune supervision ni modèle auxiliaire ? Nous montrons que les caractéristiques denses auto-supervisées à grande échelle de DINOv3 présentent une forte structure spatiale et une correspondance sémantique robuste. Nous présentons INSID3, une approche sans entraînement qui segmente des concepts à différentes granularités uniquement à partir des caractéristiques figées de DINOv3, en utilisant un exemple contextuel. INSID3 obtient des résultats state-of-the-art en segmentation sémantique, de parties et personnalisée en one-shot, surpassant les travaux précédents de +7,5 % de mIoU, tout en utilisant 3 fois moins de paramètres et sans aucune supervision au niveau des masques ou des catégories. Le code est disponible à l'adresse https://github.com/visinf/INSID3.

English

In-context segmentation (ICS) aims to segment arbitrary concepts, e.g., objects, parts, or personalized instances, given one annotated visual examples. Existing work relies on (i) fine-tuning vision foundation models (VFMs), which improves in-domain results but harms generalization, or (ii) combines multiple frozen VFMs, which preserves generalization but yields architectural complexity and fixed segmentation granularities. We revisit ICS from a minimalist perspective and ask: Can a single self-supervised backbone support both semantic matching and segmentation, without any supervision or auxiliary models? We show that scaled-up dense self-supervised features from DINOv3 exhibit strong spatial structure and semantic correspondence. We introduce INSID3, a training-free approach that segments concepts at varying granularities only from frozen DINOv3 features, given an in-context example. INSID3 achieves state-of-the-art results across one-shot semantic, part, and personalized segmentation, outperforming previous work by +7.5 % mIoU, while using 3x fewer parameters and without any mask or category-level supervision. Code is available at https://github.com/visinf/INSID3 .

INSID3 : Segmentation en contexte sans entraînement avec DINOv3

INSID3: Training-Free In-Context Segmentation with DINOv3

Résumé

Support