NeCo: Miglioramento delle rappresentazioni spaziali di DINOv2 in 19 ore di GPU con la Consistenza dei Vicini di Patch

Abstract

Proponiamo l'ordinamento delle rappresentazioni di patch tra diverse viste come un nuovo segnale di apprendimento auto-supervisionato per migliorare le rappresentazioni pre-addestrate. A tal fine, introduciamo NeCo: Patch Neighbor Consistency, una nuova funzione di perdita di addestramento che impone la consistenza dei vicini più prossimi a livello di patch tra un modello studente e un modello insegnante, rispetto a batch di riferimento. Il nostro metodo sfrutta una tecnica di ordinamento differenziabile applicata sulle rappresentazioni pre-addestrate, come i registri DINOv2, per avviare il segnale di apprendimento e migliorarle ulteriormente. Questo addestramento post-pretraining denso porta a prestazioni superiori su vari modelli e dataset, nonostante richieda solo 19 ore su una singola GPU. Dimostriamo che questo metodo genera encoder di feature dense di alta qualità e stabilisce diversi nuovi risultati all'avanguardia: +5,5% e +6% per la segmentazione semantica non parametrica in-context su ADE20k e Pascal VOC, e +7,2% e +5,7% per le valutazioni di segmentazione lineare su COCO-Things e -Stuff.

English

We propose sorting patch representations across views as a novel self-supervised learning signal to improve pretrained representations. To this end, we introduce NeCo: Patch Neighbor Consistency, a novel training loss that enforces patch-level nearest neighbor consistency across a student and teacher model, relative to reference batches. Our method leverages a differentiable sorting method applied on top of pretrained representations, such as DINOv2-registers to bootstrap the learning signal and further improve upon them. This dense post-pretraining leads to superior performance across various models and datasets, despite requiring only 19 hours on a single GPU. We demonstrate that this method generates high-quality dense feature encoders and establish several new state-of-the-art results: +5.5% and + 6% for non-parametric in-context semantic segmentation on ADE20k and Pascal VOC, and +7.2% and +5.7% for linear segmentation evaluations on COCO-Things and -Stuff.

NeCo: Miglioramento delle rappresentazioni spaziali di DINOv2 in 19 ore di GPU con la Consistenza dei Vicini di Patch

NeCo: Improving DINOv2's spatial representations in 19 GPU hours with Patch Neighbor Consistency

Abstract

Support