INSID3: Segmentación en Contexto sin Entrenamiento con DINOv3

Resumen

La segmentación en contexto (ICS) tiene como objetivo segmentar conceptos arbitrarios (por ejemplo, objetos, partes o instancias personalizadas) dado un ejemplo visual anotado. Los trabajos existentes se basan en (i) el ajuste fino de modelos fundacionales de visión (VFMs), lo que mejora los resultados dentro del dominio pero perjudica la generalización, o (ii) la combinación de múltiples VFMs congelados, lo que preserva la generalización pero genera complejidad arquitectónica y granularidades de segmentación fijas. Revisamos la ICS desde una perspectiva minimalista y nos preguntamos: ¿Puede un *backbone* único auto-supervisado soportar tanto la correspondencia semántica como la segmentación, sin ninguna supervisión ni modelos auxiliares? Demostramos que las características densas auto-supervisadas a gran escala de DINOv3 exhiben una fuerte estructura espacial y correspondencia semántica. Presentamos INSID3, un enfoque libre de entrenamiento que segmenta conceptos en diferentes granularidades utilizando únicamente las características congeladas de DINOv3, dado un ejemplo en contexto. INSID3 logra resultados de vanguardia en segmentación semántica, de partes y personalizada con un solo ejemplo, superando el trabajo anterior en +7.5 % de mIoU, mientras utiliza 3 veces menos parámetros y sin ninguna supervisión a nivel de máscara o categoría. El código está disponible en https://github.com/visinf/INSID3.

English

In-context segmentation (ICS) aims to segment arbitrary concepts, e.g., objects, parts, or personalized instances, given one annotated visual examples. Existing work relies on (i) fine-tuning vision foundation models (VFMs), which improves in-domain results but harms generalization, or (ii) combines multiple frozen VFMs, which preserves generalization but yields architectural complexity and fixed segmentation granularities. We revisit ICS from a minimalist perspective and ask: Can a single self-supervised backbone support both semantic matching and segmentation, without any supervision or auxiliary models? We show that scaled-up dense self-supervised features from DINOv3 exhibit strong spatial structure and semantic correspondence. We introduce INSID3, a training-free approach that segments concepts at varying granularities only from frozen DINOv3 features, given an in-context example. INSID3 achieves state-of-the-art results across one-shot semantic, part, and personalized segmentation, outperforming previous work by +7.5 % mIoU, while using 3x fewer parameters and without any mask or category-level supervision. Code is available at https://github.com/visinf/INSID3 .

INSID3: Segmentación en Contexto sin Entrenamiento con DINOv3

INSID3: Training-Free In-Context Segmentation with DINOv3

Resumen

Support