NeCo: Verbetering van DINOv2's ruimtelijke representaties in 19 GPU-uren met Patch Neighbor Consistency
NeCo: Improving DINOv2's spatial representations in 19 GPU hours with Patch Neighbor Consistency
August 20, 2024
Auteurs: Valentinos Pariza, Mohammadreza Salehi, Gertjan Burghouts, Francesco Locatello, Yuki M. Asano
cs.AI
Samenvatting
We stellen voor om patchrepresentaties over verschillende views te sorteren als een nieuwe zelfgesuperviseerde leerinspanning om voorgetrainde representaties te verbeteren. Hiertoe introduceren we NeCo: Patch Neighbor Consistency, een nieuwe trainingsloss die patch-level nearest neighbor consistentie afdwingt tussen een student- en een teacher-model, ten opzichte van referentiebatchjes. Onze methode maakt gebruik van een differentieerbare sorteermethode die wordt toegepast op voorgetrainde representaties, zoals DINOv2-registers, om het leersignaal te versterken en deze verder te verbeteren. Deze dichte post-pretraining resulteert in superieure prestaties over verschillende modellen en datasets, ondanks dat slechts 19 uur op een enkele GPU vereist is. We tonen aan dat deze methode hoogwaardige dichte feature-encoders genereert en stellen verschillende nieuwe state-of-the-art resultaten vast: +5,5% en +6% voor niet-parametrische in-context semantische segmentatie op ADE20k en Pascal VOC, en +7,2% en +5,7% voor lineaire segmentatie-evaluaties op COCO-Things en -Stuff.
English
We propose sorting patch representations across views as a novel
self-supervised learning signal to improve pretrained representations. To this
end, we introduce NeCo: Patch Neighbor Consistency, a novel training loss that
enforces patch-level nearest neighbor consistency across a student and teacher
model, relative to reference batches. Our method leverages a differentiable
sorting method applied on top of pretrained representations, such as
DINOv2-registers to bootstrap the learning signal and further improve upon
them. This dense post-pretraining leads to superior performance across various
models and datasets, despite requiring only 19 hours on a single GPU. We
demonstrate that this method generates high-quality dense feature encoders and
establish several new state-of-the-art results: +5.5% and + 6% for
non-parametric in-context semantic segmentation on ADE20k and Pascal VOC, and
+7.2% and +5.7% for linear segmentation evaluations on COCO-Things and -Stuff.Summary
AI-Generated Summary