ChatPaper.aiChatPaper

NeCo: Miglioramento delle rappresentazioni spaziali di DINOv2 in 19 ore di GPU con la Consistenza dei Vicini di Patch

NeCo: Improving DINOv2's spatial representations in 19 GPU hours with Patch Neighbor Consistency

August 20, 2024
Autori: Valentinos Pariza, Mohammadreza Salehi, Gertjan Burghouts, Francesco Locatello, Yuki M. Asano
cs.AI

Abstract

Proponiamo l'ordinamento delle rappresentazioni di patch tra diverse viste come un nuovo segnale di apprendimento auto-supervisionato per migliorare le rappresentazioni pre-addestrate. A tal fine, introduciamo NeCo: Patch Neighbor Consistency, una nuova funzione di perdita di addestramento che impone la consistenza dei vicini più prossimi a livello di patch tra un modello studente e un modello insegnante, rispetto a batch di riferimento. Il nostro metodo sfrutta una tecnica di ordinamento differenziabile applicata sulle rappresentazioni pre-addestrate, come i registri DINOv2, per avviare il segnale di apprendimento e migliorarle ulteriormente. Questo addestramento post-pretraining denso porta a prestazioni superiori su vari modelli e dataset, nonostante richieda solo 19 ore su una singola GPU. Dimostriamo che questo metodo genera encoder di feature dense di alta qualità e stabilisce diversi nuovi risultati all'avanguardia: +5,5% e +6% per la segmentazione semantica non parametrica in-context su ADE20k e Pascal VOC, e +7,2% e +5,7% per le valutazioni di segmentazione lineare su COCO-Things e -Stuff.
English
We propose sorting patch representations across views as a novel self-supervised learning signal to improve pretrained representations. To this end, we introduce NeCo: Patch Neighbor Consistency, a novel training loss that enforces patch-level nearest neighbor consistency across a student and teacher model, relative to reference batches. Our method leverages a differentiable sorting method applied on top of pretrained representations, such as DINOv2-registers to bootstrap the learning signal and further improve upon them. This dense post-pretraining leads to superior performance across various models and datasets, despite requiring only 19 hours on a single GPU. We demonstrate that this method generates high-quality dense feature encoders and establish several new state-of-the-art results: +5.5% and + 6% for non-parametric in-context semantic segmentation on ADE20k and Pascal VOC, and +7.2% and +5.7% for linear segmentation evaluations on COCO-Things and -Stuff.
PDF142November 17, 2024