INSID3: Segmentação em Contexto sem Treinamento com DINOv3

Resumo

A segmentação contextual (ICS) visa segmentar conceitos arbitrários, por exemplo, objetos, partes ou instâncias personalizadas, a partir de um exemplo visual anotado. Os trabalhos existentes baseiam-se (i) no *fine-tuning* de modelos de base de visão (VFMs), o que melhora os resultados no domínio, mas prejudica a generalização, ou (ii) na combinação de múltiplos VFMs congelados, o que preserva a generalização, mas resulta em complexidade arquitetónica e granularidades de segmentação fixas. Revisitamos a ICS a partir de uma perspetiva minimalista e questionamos: Pode um *backbone* auto-supervisionado único suportar tanto a correspondência semântica como a segmentação, sem qualquer supervisão ou modelos auxiliares? Mostramos que características densas auto-supervisionadas em escala do DINOv3 exibem uma forte estrutura espacial e correspondência semântica. Apresentamos o INSID3, uma abordagem livre de treino que segmenta conceitos em várias granularidades apenas a partir das características congeladas do DINOv3, dado um exemplo contextual. O INSID3 alcança resultados state-of-the-art em segmentação semântica, de partes e personalizada *one-shot*, superando trabalhos anteriores em +7,5 % mIoU, utilizando 3 vezes menos parâmetros e sem qualquer supervisão a nível de máscara ou categoria. O código está disponível em https://github.com/visinf/INSID3.

English

In-context segmentation (ICS) aims to segment arbitrary concepts, e.g., objects, parts, or personalized instances, given one annotated visual examples. Existing work relies on (i) fine-tuning vision foundation models (VFMs), which improves in-domain results but harms generalization, or (ii) combines multiple frozen VFMs, which preserves generalization but yields architectural complexity and fixed segmentation granularities. We revisit ICS from a minimalist perspective and ask: Can a single self-supervised backbone support both semantic matching and segmentation, without any supervision or auxiliary models? We show that scaled-up dense self-supervised features from DINOv3 exhibit strong spatial structure and semantic correspondence. We introduce INSID3, a training-free approach that segments concepts at varying granularities only from frozen DINOv3 features, given an in-context example. INSID3 achieves state-of-the-art results across one-shot semantic, part, and personalized segmentation, outperforming previous work by +7.5 % mIoU, while using 3x fewer parameters and without any mask or category-level supervision. Code is available at https://github.com/visinf/INSID3 .

INSID3: Segmentação em Contexto sem Treinamento com DINOv3

INSID3: Training-Free In-Context Segmentation with DINOv3

Resumo

Support