INSID3: Контекстная сегментация без обучения с использованием DINOv3

Аннотация

Контекстная сегментация (ICS) ставит целью сегментацию произвольных концепций, таких как объекты, их части или персонализированные экземпляры, на основе одного размеченного визуального примера. Существующие подходы основываются либо на (i) дообучении базовых моделей компьютерного зрения (VFMs), что улучшает результаты внутри домена, но ухудшает обобщающую способность, либо на (ii) комбинировании нескольких замороженных VFM, что сохраняет обобщающую способность, но приводит к архитектурной сложности и фиксированной гранулярности сегментации. Мы пересматриваем задачу ICS с минималистической точки зрения и задаемся вопросом: может ли единственный самообучаемый бэкбон одновременно поддерживать как семантическое соответствие, так и сегментацию, без какого-либо обучения или вспомогательных моделей? Мы демонстрируем, что масштабированные плотные признаки самообучения из DINOv3 обладают выраженной пространственной структурой и семантическим соответствием. Мы представляем INSID3 — беспоисковый метод, который выполняет сегментацию концепций с различной гранулярностью, используя только замороженные признаки DINOv3 и контекстный пример. INSID3 достигает state-of-the-art результатов в задачах one-shot семантической, партовой и персонализированной сегментации, превосходя предыдущие работы на +7.5% mIoU, при этом используя в 3 раза меньше параметров и не требуя никакого обучения на масках или надзора на уровне категорий. Код доступен по адресу https://github.com/visinf/INSID3.

English

In-context segmentation (ICS) aims to segment arbitrary concepts, e.g., objects, parts, or personalized instances, given one annotated visual examples. Existing work relies on (i) fine-tuning vision foundation models (VFMs), which improves in-domain results but harms generalization, or (ii) combines multiple frozen VFMs, which preserves generalization but yields architectural complexity and fixed segmentation granularities. We revisit ICS from a minimalist perspective and ask: Can a single self-supervised backbone support both semantic matching and segmentation, without any supervision or auxiliary models? We show that scaled-up dense self-supervised features from DINOv3 exhibit strong spatial structure and semantic correspondence. We introduce INSID3, a training-free approach that segments concepts at varying granularities only from frozen DINOv3 features, given an in-context example. INSID3 achieves state-of-the-art results across one-shot semantic, part, and personalized segmentation, outperforming previous work by +7.5 % mIoU, while using 3x fewer parameters and without any mask or category-level supervision. Code is available at https://github.com/visinf/INSID3 .

INSID3: Контекстная сегментация без обучения с использованием DINOv3

INSID3: Training-Free In-Context Segmentation with DINOv3

Аннотация

Support