NeCo : Amélioration des représentations spatiales de DINOv2 en 19 heures GPU avec la Cohérence des Voisins de Patch.
NeCo: Improving DINOv2's spatial representations in 19 GPU hours with Patch Neighbor Consistency
August 20, 2024
Auteurs: Valentinos Pariza, Mohammadreza Salehi, Gertjan Burghouts, Francesco Locatello, Yuki M. Asano
cs.AI
Résumé
Nous proposons de trier les représentations de patchs à travers les vues comme un nouveau signal d'apprentissage auto-supervisé pour améliorer les représentations pré-entraînées. À cette fin, nous introduisons NeCo : Cohérence des Voisins de Patchs, une nouvelle perte d'entraînement qui impose une cohérence des voisins de patchs au niveau du patch entre un modèle étudiant et un modèle enseignant, par rapport aux lots de référence. Notre méthode exploite une méthode de tri différenciable appliquée sur des représentations pré-entraînées, telles que DINOv2-registers, pour amorcer le signal d'apprentissage et les améliorer davantage. Ce post-entraînement dense conduit à des performances supérieures sur divers modèles et ensembles de données, malgré le besoin de seulement 19 heures sur un seul GPU. Nous démontrons que cette méthode génère des codeurs de caractéristiques denses de haute qualité et établissons plusieurs nouveaux résultats de pointe : +5,5 % et +6 % pour la segmentation sémantique non paramétrique en contexte sur ADE20k et Pascal VOC, et +7,2 % et +5,7 % pour les évaluations de segmentation linéaire sur COCO-Things et -Stuff.
English
We propose sorting patch representations across views as a novel
self-supervised learning signal to improve pretrained representations. To this
end, we introduce NeCo: Patch Neighbor Consistency, a novel training loss that
enforces patch-level nearest neighbor consistency across a student and teacher
model, relative to reference batches. Our method leverages a differentiable
sorting method applied on top of pretrained representations, such as
DINOv2-registers to bootstrap the learning signal and further improve upon
them. This dense post-pretraining leads to superior performance across various
models and datasets, despite requiring only 19 hours on a single GPU. We
demonstrate that this method generates high-quality dense feature encoders and
establish several new state-of-the-art results: +5.5% and + 6% for
non-parametric in-context semantic segmentation on ADE20k and Pascal VOC, and
+7.2% and +5.7% for linear segmentation evaluations on COCO-Things and -Stuff.Summary
AI-Generated Summary