INSID3: Segmentazione In-Context Senza Addestramento con DINOv3

Abstract

La segmentazione in contesto (ICS) mira a segmentare concetti arbitrari, ad esempio oggetti, parti o istanze personalizzate, dato un unico esempio visivo annotato. I lavori esistenti si basano su (i) il fine-tuning di modelli fondazione visivi (VFM), che migliora i risultati in-dominio ma compromette la generalizzazione, oppure (ii) sulla combinazione di più VFM congelati, che preserva la generalizzazione ma comporta complessità architetturale e granularità di segmentazione fisse. Noi rivisitiamo l'ICS da una prospettiva minimalista e ci chiediamo: un singolo backbone auto-supervisionato può supportare sia il matching semantico che la segmentazione, senza alcuna supervisione o modelli ausiliari? Dimostriamo che feature dense auto-supervisionate e scalate da DINOv3 mostrano una forte struttura spaziale e corrispondenza semantica. Introduciamo INSID3, un approccio senza training che segmenta concetti a diverse granularità utilizzando esclusivamente feature congelate di DINOv3, dato un esempio in contesto. INSID3 ottiene risultati all'avanguardia nella segmentazione semantica one-shot, di parti e personalizzata, superando i lavori precedenti di +7.5% mIoU, utilizzando al contempo 3 volte meno parametri e senza alcuna supervisione a livello di maschera o categoria. Il codice è disponibile all'indirizzo https://github.com/visinf/INSID3 .

English

In-context segmentation (ICS) aims to segment arbitrary concepts, e.g., objects, parts, or personalized instances, given one annotated visual examples. Existing work relies on (i) fine-tuning vision foundation models (VFMs), which improves in-domain results but harms generalization, or (ii) combines multiple frozen VFMs, which preserves generalization but yields architectural complexity and fixed segmentation granularities. We revisit ICS from a minimalist perspective and ask: Can a single self-supervised backbone support both semantic matching and segmentation, without any supervision or auxiliary models? We show that scaled-up dense self-supervised features from DINOv3 exhibit strong spatial structure and semantic correspondence. We introduce INSID3, a training-free approach that segments concepts at varying granularities only from frozen DINOv3 features, given an in-context example. INSID3 achieves state-of-the-art results across one-shot semantic, part, and personalized segmentation, outperforming previous work by +7.5 % mIoU, while using 3x fewer parameters and without any mask or category-level supervision. Code is available at https://github.com/visinf/INSID3 .

INSID3: Segmentazione In-Context Senza Addestramento con DINOv3

INSID3: Training-Free In-Context Segmentation with DINOv3

Abstract

Support