INSID3: Trainingsfreie In-Context-Segmentierung mit DINOv3

Zusammenfassung

Kontextbezogene Segmentierung (ICS) zielt darauf ab, beliebige Konzepte (z. B. Objekte, Teile oder personalisierte Instanzen) anhand eines annotierten visuellen Beispiels zu segmentieren. Bisherige Arbeiten stützen sich entweder auf (i) das Fine-Tuning von visuellen Foundation-Modellen (VFMs), was Ergebnisse innerhalb der Domäne verbessert, aber die Generalisierungsfähigkeit beeinträchtigt, oder (ii) die Kombination mehrerer eingefrorener VFMs, was die Generalisierungsfähigkeit erhält, aber zu architektonischer Komplexität und festen Segmentierungsgranularitäten führt. Wir betrachten ICS aus einer minimalistischen Perspektive neu und stellen die Frage: Kann ein einziges selbstüberwachtes Backbone sowohl semantisches Matching als auch Segmentierung unterstützen, ohne jegliche Supervision oder Hilfsmodelle? Wir zeigen, dass hochskalierte, dichte selbstüberwachte Features von DINOv3 eine starke räumliche Struktur und semantische Korrespondenz aufweisen. Wir stellen INSID3 vor, einen trainingsfreien Ansatz, der Konzepte auf verschiedenen Granularitätsebenen ausschließlich anhand eingefrorener DINOv3-Features und eines kontextuellen Beispiels segmentiert. INSID3 erzielt state-of-the-art Ergebnisse in den Bereichen One-Shot-Semantik-, Teil- und personalisierte Segmentierung und übertrifft bisherige Arbeiten um +7,5 % mIoU, bei gleichzeitiger Verwendung von 3x weniger Parametern und ohne jegliche Masken- oder Kategorie-Level-Supervision. Der Code ist verfügbar unter https://github.com/visinf/INSID3.

English

In-context segmentation (ICS) aims to segment arbitrary concepts, e.g., objects, parts, or personalized instances, given one annotated visual examples. Existing work relies on (i) fine-tuning vision foundation models (VFMs), which improves in-domain results but harms generalization, or (ii) combines multiple frozen VFMs, which preserves generalization but yields architectural complexity and fixed segmentation granularities. We revisit ICS from a minimalist perspective and ask: Can a single self-supervised backbone support both semantic matching and segmentation, without any supervision or auxiliary models? We show that scaled-up dense self-supervised features from DINOv3 exhibit strong spatial structure and semantic correspondence. We introduce INSID3, a training-free approach that segments concepts at varying granularities only from frozen DINOv3 features, given an in-context example. INSID3 achieves state-of-the-art results across one-shot semantic, part, and personalized segmentation, outperforming previous work by +7.5 % mIoU, while using 3x fewer parameters and without any mask or category-level supervision. Code is available at https://github.com/visinf/INSID3 .

INSID3: Trainingsfreie In-Context-Segmentierung mit DINOv3

INSID3: Training-Free In-Context Segmentation with DINOv3

Zusammenfassung

Support