ChatPaper.aiChatPaper

NeCo: Verbetering van DINOv2's ruimtelijke representaties in 19 GPU-uren met Patch Neighbor Consistency

NeCo: Improving DINOv2's spatial representations in 19 GPU hours with Patch Neighbor Consistency

August 20, 2024
Auteurs: Valentinos Pariza, Mohammadreza Salehi, Gertjan Burghouts, Francesco Locatello, Yuki M. Asano
cs.AI

Samenvatting

We stellen voor om patchrepresentaties over verschillende views te sorteren als een nieuwe zelfgesuperviseerde leerinspanning om voorgetrainde representaties te verbeteren. Hiertoe introduceren we NeCo: Patch Neighbor Consistency, een nieuwe trainingsloss die patch-level nearest neighbor consistentie afdwingt tussen een student- en een teacher-model, ten opzichte van referentiebatchjes. Onze methode maakt gebruik van een differentieerbare sorteermethode die wordt toegepast op voorgetrainde representaties, zoals DINOv2-registers, om het leersignaal te versterken en deze verder te verbeteren. Deze dichte post-pretraining resulteert in superieure prestaties over verschillende modellen en datasets, ondanks dat slechts 19 uur op een enkele GPU vereist is. We tonen aan dat deze methode hoogwaardige dichte feature-encoders genereert en stellen verschillende nieuwe state-of-the-art resultaten vast: +5,5% en +6% voor niet-parametrische in-context semantische segmentatie op ADE20k en Pascal VOC, en +7,2% en +5,7% voor lineaire segmentatie-evaluaties op COCO-Things en -Stuff.
English
We propose sorting patch representations across views as a novel self-supervised learning signal to improve pretrained representations. To this end, we introduce NeCo: Patch Neighbor Consistency, a novel training loss that enforces patch-level nearest neighbor consistency across a student and teacher model, relative to reference batches. Our method leverages a differentiable sorting method applied on top of pretrained representations, such as DINOv2-registers to bootstrap the learning signal and further improve upon them. This dense post-pretraining leads to superior performance across various models and datasets, despite requiring only 19 hours on a single GPU. We demonstrate that this method generates high-quality dense feature encoders and establish several new state-of-the-art results: +5.5% and + 6% for non-parametric in-context semantic segmentation on ADE20k and Pascal VOC, and +7.2% and +5.7% for linear segmentation evaluations on COCO-Things and -Stuff.

Summary

AI-Generated Summary

PDF132November 17, 2024