NeCo: Улучшение пространственных представлений DINOv2 за 19 часов на 19 GPU с помощью согласованности соседних патчей.

Аннотация

Мы предлагаем сортировку представлений патчей между видами как новый сигнал обучения без учителя для улучшения предварительно обученных представлений. Для этого мы представляем NeCo: Согласованность соседних патчей, новую функцию потерь обучения, которая обеспечивает согласованность ближайших соседей на уровне патчей между моделью ученика и учителя, относительно эталонных пакетов. Наш метод использует дифференцируемый метод сортировки, применяемый поверх предварительно обученных представлений, таких как DINOv2-регистры, для инициации сигнала обучения и их дальнейшего улучшения. Это плотное послеобучение приводит к превосходным результатам на различных моделях и наборах данных, несмотря на то, что требуется всего 19 часов на одном графическом процессоре. Мы демонстрируем, что этот метод генерирует высококачественные плотные кодировщики признаков и устанавливаем несколько новых результатов, превосходящих все существующие: +5.5% и +6% для непараметрической семантической сегментации в контексте на ADE20k и Pascal VOC, и +7.2% и +5.7% для линейной сегментации на COCO-Things и -Stuff.

English

We propose sorting patch representations across views as a novel self-supervised learning signal to improve pretrained representations. To this end, we introduce NeCo: Patch Neighbor Consistency, a novel training loss that enforces patch-level nearest neighbor consistency across a student and teacher model, relative to reference batches. Our method leverages a differentiable sorting method applied on top of pretrained representations, such as DINOv2-registers to bootstrap the learning signal and further improve upon them. This dense post-pretraining leads to superior performance across various models and datasets, despite requiring only 19 hours on a single GPU. We demonstrate that this method generates high-quality dense feature encoders and establish several new state-of-the-art results: +5.5% and + 6% for non-parametric in-context semantic segmentation on ADE20k and Pascal VOC, and +7.2% and +5.7% for linear segmentation evaluations on COCO-Things and -Stuff.

NeCo: Улучшение пространственных представлений DINOv2 за 19 часов на 19 GPU с помощью согласованности соседних патчей.

NeCo: Improving DINOv2's spatial representations in 19 GPU hours with Patch Neighbor Consistency

Аннотация

Support