ChatPaper.aiChatPaper

NeCo: Улучшение пространственных представлений DINOv2 за 19 часов на 19 GPU с помощью согласованности соседних патчей.

NeCo: Improving DINOv2's spatial representations in 19 GPU hours with Patch Neighbor Consistency

August 20, 2024
Авторы: Valentinos Pariza, Mohammadreza Salehi, Gertjan Burghouts, Francesco Locatello, Yuki M. Asano
cs.AI

Аннотация

Мы предлагаем сортировку представлений патчей между видами как новый сигнал обучения без учителя для улучшения предварительно обученных представлений. Для этого мы представляем NeCo: Согласованность соседних патчей, новую функцию потерь обучения, которая обеспечивает согласованность ближайших соседей на уровне патчей между моделью ученика и учителя, относительно эталонных пакетов. Наш метод использует дифференцируемый метод сортировки, применяемый поверх предварительно обученных представлений, таких как DINOv2-регистры, для инициации сигнала обучения и их дальнейшего улучшения. Это плотное послеобучение приводит к превосходным результатам на различных моделях и наборах данных, несмотря на то, что требуется всего 19 часов на одном графическом процессоре. Мы демонстрируем, что этот метод генерирует высококачественные плотные кодировщики признаков и устанавливаем несколько новых результатов, превосходящих все существующие: +5.5% и +6% для непараметрической семантической сегментации в контексте на ADE20k и Pascal VOC, и +7.2% и +5.7% для линейной сегментации на COCO-Things и -Stuff.
English
We propose sorting patch representations across views as a novel self-supervised learning signal to improve pretrained representations. To this end, we introduce NeCo: Patch Neighbor Consistency, a novel training loss that enforces patch-level nearest neighbor consistency across a student and teacher model, relative to reference batches. Our method leverages a differentiable sorting method applied on top of pretrained representations, such as DINOv2-registers to bootstrap the learning signal and further improve upon them. This dense post-pretraining leads to superior performance across various models and datasets, despite requiring only 19 hours on a single GPU. We demonstrate that this method generates high-quality dense feature encoders and establish several new state-of-the-art results: +5.5% and + 6% for non-parametric in-context semantic segmentation on ADE20k and Pascal VOC, and +7.2% and +5.7% for linear segmentation evaluations on COCO-Things and -Stuff.

Summary

AI-Generated Summary

PDF132November 17, 2024