NeCo: Улучшение пространственных представлений DINOv2 за 19 часов на 19 GPU с помощью согласованности соседних патчей.
NeCo: Improving DINOv2's spatial representations in 19 GPU hours with Patch Neighbor Consistency
August 20, 2024
Авторы: Valentinos Pariza, Mohammadreza Salehi, Gertjan Burghouts, Francesco Locatello, Yuki M. Asano
cs.AI
Аннотация
Мы предлагаем сортировку представлений патчей между видами как новый сигнал обучения без учителя для улучшения предварительно обученных представлений. Для этого мы представляем NeCo: Согласованность соседних патчей, новую функцию потерь обучения, которая обеспечивает согласованность ближайших соседей на уровне патчей между моделью ученика и учителя, относительно эталонных пакетов. Наш метод использует дифференцируемый метод сортировки, применяемый поверх предварительно обученных представлений, таких как DINOv2-регистры, для инициации сигнала обучения и их дальнейшего улучшения. Это плотное послеобучение приводит к превосходным результатам на различных моделях и наборах данных, несмотря на то, что требуется всего 19 часов на одном графическом процессоре. Мы демонстрируем, что этот метод генерирует высококачественные плотные кодировщики признаков и устанавливаем несколько новых результатов, превосходящих все существующие: +5.5% и +6% для непараметрической семантической сегментации в контексте на ADE20k и Pascal VOC, и +7.2% и +5.7% для линейной сегментации на COCO-Things и -Stuff.
English
We propose sorting patch representations across views as a novel
self-supervised learning signal to improve pretrained representations. To this
end, we introduce NeCo: Patch Neighbor Consistency, a novel training loss that
enforces patch-level nearest neighbor consistency across a student and teacher
model, relative to reference batches. Our method leverages a differentiable
sorting method applied on top of pretrained representations, such as
DINOv2-registers to bootstrap the learning signal and further improve upon
them. This dense post-pretraining leads to superior performance across various
models and datasets, despite requiring only 19 hours on a single GPU. We
demonstrate that this method generates high-quality dense feature encoders and
establish several new state-of-the-art results: +5.5% and + 6% for
non-parametric in-context semantic segmentation on ADE20k and Pascal VOC, and
+7.2% and +5.7% for linear segmentation evaluations on COCO-Things and -Stuff.Summary
AI-Generated Summary