INSID3: Training-Vrije In-Context Segmentatie met DINOv3

Samenvatting

In-context segmentatie (ICS) heeft als doel willekeurige concepten, zoals objecten, onderdelen of gepersonaliseerde instanties, te segmenteren op basis van één geannoteerd visueel voorbeeld. Bestaande methoden zijn gebaseerd op (i) het fine-tunen van vision foundation models (VFM's), wat de resultaten binnen het domein verbetert maar de generalisatie schaadt, of (ii) het combineren van meerdere bevroren VFM's, wat de generalisatie behoudt maar leidt tot architecturele complexiteit en vaste segmentatiegranulariteiten. Wij benaderen ICS opnieuw vanuit een minimalistisch perspectief en stellen de vraag: Kan een enkele zelf-gesuperviseerde backbone zowel semantische matching als segmentatie ondersteunen, zonder enige supervisie of hulpmodellen? Wij tonen aan dat opgeschaalde, dense, zelf-gesuperviseerde features van DINOv3 een sterke ruimtelijke structuur en semantische correspondentie vertonen. Wij introduceren INSID3, een trainingsvrije aanpak die concepten op verschillende granulariteiten segmenteert uitsluitend op basis van bevroren DINOv3-features, gegeven een in-context voorbeeld. INSID3 behaalt state-of-the-art resultaten op het gebied van one-shot semantische, onderdeel- en gepersonaliseerde segmentatie, en presteert +7,5 % mIoU beter dan eerdere werkzaamheden, terwijl het 3x minder parameters gebruikt en zonder enige masker- of categorie-niveau supervisie. Code is beschikbaar op https://github.com/visinf/INSID3.

English

In-context segmentation (ICS) aims to segment arbitrary concepts, e.g., objects, parts, or personalized instances, given one annotated visual examples. Existing work relies on (i) fine-tuning vision foundation models (VFMs), which improves in-domain results but harms generalization, or (ii) combines multiple frozen VFMs, which preserves generalization but yields architectural complexity and fixed segmentation granularities. We revisit ICS from a minimalist perspective and ask: Can a single self-supervised backbone support both semantic matching and segmentation, without any supervision or auxiliary models? We show that scaled-up dense self-supervised features from DINOv3 exhibit strong spatial structure and semantic correspondence. We introduce INSID3, a training-free approach that segments concepts at varying granularities only from frozen DINOv3 features, given an in-context example. INSID3 achieves state-of-the-art results across one-shot semantic, part, and personalized segmentation, outperforming previous work by +7.5 % mIoU, while using 3x fewer parameters and without any mask or category-level supervision. Code is available at https://github.com/visinf/INSID3 .

INSID3: Training-Vrije In-Context Segmentatie met DINOv3

INSID3: Training-Free In-Context Segmentation with DINOv3

Samenvatting

Support