ChatPaper.aiChatPaper

NeCo : Amélioration des représentations spatiales de DINOv2 en 19 heures GPU avec la Cohérence des Voisins de Patch.

NeCo: Improving DINOv2's spatial representations in 19 GPU hours with Patch Neighbor Consistency

August 20, 2024
Auteurs: Valentinos Pariza, Mohammadreza Salehi, Gertjan Burghouts, Francesco Locatello, Yuki M. Asano
cs.AI

Résumé

Nous proposons de trier les représentations de patchs à travers les vues comme un nouveau signal d'apprentissage auto-supervisé pour améliorer les représentations pré-entraînées. À cette fin, nous introduisons NeCo : Cohérence des Voisins de Patchs, une nouvelle perte d'entraînement qui impose une cohérence des voisins de patchs au niveau du patch entre un modèle étudiant et un modèle enseignant, par rapport aux lots de référence. Notre méthode exploite une méthode de tri différenciable appliquée sur des représentations pré-entraînées, telles que DINOv2-registers, pour amorcer le signal d'apprentissage et les améliorer davantage. Ce post-entraînement dense conduit à des performances supérieures sur divers modèles et ensembles de données, malgré le besoin de seulement 19 heures sur un seul GPU. Nous démontrons que cette méthode génère des codeurs de caractéristiques denses de haute qualité et établissons plusieurs nouveaux résultats de pointe : +5,5 % et +6 % pour la segmentation sémantique non paramétrique en contexte sur ADE20k et Pascal VOC, et +7,2 % et +5,7 % pour les évaluations de segmentation linéaire sur COCO-Things et -Stuff.
English
We propose sorting patch representations across views as a novel self-supervised learning signal to improve pretrained representations. To this end, we introduce NeCo: Patch Neighbor Consistency, a novel training loss that enforces patch-level nearest neighbor consistency across a student and teacher model, relative to reference batches. Our method leverages a differentiable sorting method applied on top of pretrained representations, such as DINOv2-registers to bootstrap the learning signal and further improve upon them. This dense post-pretraining leads to superior performance across various models and datasets, despite requiring only 19 hours on a single GPU. We demonstrate that this method generates high-quality dense feature encoders and establish several new state-of-the-art results: +5.5% and + 6% for non-parametric in-context semantic segmentation on ADE20k and Pascal VOC, and +7.2% and +5.7% for linear segmentation evaluations on COCO-Things and -Stuff.

Summary

AI-Generated Summary

PDF132November 17, 2024