NeCo: Verbetering van DINOv2's ruimtelijke representaties in 19 GPU-uren met Patch Neighbor Consistency

Samenvatting

We stellen voor om patchrepresentaties over verschillende views te sorteren als een nieuwe zelfgesuperviseerde leerinspanning om voorgetrainde representaties te verbeteren. Hiertoe introduceren we NeCo: Patch Neighbor Consistency, een nieuwe trainingsloss die patch-level nearest neighbor consistentie afdwingt tussen een student- en een teacher-model, ten opzichte van referentiebatchjes. Onze methode maakt gebruik van een differentieerbare sorteermethode die wordt toegepast op voorgetrainde representaties, zoals DINOv2-registers, om het leersignaal te versterken en deze verder te verbeteren. Deze dichte post-pretraining resulteert in superieure prestaties over verschillende modellen en datasets, ondanks dat slechts 19 uur op een enkele GPU vereist is. We tonen aan dat deze methode hoogwaardige dichte feature-encoders genereert en stellen verschillende nieuwe state-of-the-art resultaten vast: +5,5% en +6% voor niet-parametrische in-context semantische segmentatie op ADE20k en Pascal VOC, en +7,2% en +5,7% voor lineaire segmentatie-evaluaties op COCO-Things en -Stuff.

English

We propose sorting patch representations across views as a novel self-supervised learning signal to improve pretrained representations. To this end, we introduce NeCo: Patch Neighbor Consistency, a novel training loss that enforces patch-level nearest neighbor consistency across a student and teacher model, relative to reference batches. Our method leverages a differentiable sorting method applied on top of pretrained representations, such as DINOv2-registers to bootstrap the learning signal and further improve upon them. This dense post-pretraining leads to superior performance across various models and datasets, despite requiring only 19 hours on a single GPU. We demonstrate that this method generates high-quality dense feature encoders and establish several new state-of-the-art results: +5.5% and + 6% for non-parametric in-context semantic segmentation on ADE20k and Pascal VOC, and +7.2% and +5.7% for linear segmentation evaluations on COCO-Things and -Stuff.

NeCo: Verbetering van DINOv2's ruimtelijke representaties in 19 GPU-uren met Patch Neighbor Consistency

NeCo: Improving DINOv2's spatial representations in 19 GPU hours with Patch Neighbor Consistency

Samenvatting

Summary

Support

Support