NeCo: Verbesserung der räumlichen Darstellungen von DINOv2 in 19 GPU-Stunden mit Patch-Nachbarkonsistenz
NeCo: Improving DINOv2's spatial representations in 19 GPU hours with Patch Neighbor Consistency
August 20, 2024
Autoren: Valentinos Pariza, Mohammadreza Salehi, Gertjan Burghouts, Francesco Locatello, Yuki M. Asano
cs.AI
Zusammenfassung
Wir schlagen vor, Patch-Repräsentationen über Ansichten hinweg als neuartiges selbstüberwachtes Lernsignal zu sortieren, um vortrainierte Repräsentationen zu verbessern. Zu diesem Zweck führen wir NeCo ein: Patch-Nachbar-Konsistenz, ein neuartiger Trainingsverlust, der die konsistente nächstgelegene Nachbar auf Patch-Ebene zwischen einem Schüler- und Lehrmodell im Vergleich zu Referenzbatches erzwingt. Unsere Methode nutzt eine differenzierbare Sortiermethode, die auf vortrainierten Repräsentationen angewendet wird, wie z.B. DINOv2-Register, um das Lernsignal zu booten und weiter zu verbessern. Dieses dichte Post-Pretraining führt zu überlegener Leistung über verschiedene Modelle und Datensätze, obwohl nur 19 Stunden auf einer einzigen GPU benötigt werden. Wir zeigen, dass diese Methode hochwertige dichte Merkmalscodierer erzeugt und mehrere neue Spitzenleistungsergebnisse etabliert: +5,5 % und +6 % für nicht-parametrische kontextbezogene semantische Segmentierung auf ADE20k und Pascal VOC, sowie +7,2 % und +5,7 % für lineare Segmentierungsbewertungen auf COCO-Things und -Stuff.
English
We propose sorting patch representations across views as a novel
self-supervised learning signal to improve pretrained representations. To this
end, we introduce NeCo: Patch Neighbor Consistency, a novel training loss that
enforces patch-level nearest neighbor consistency across a student and teacher
model, relative to reference batches. Our method leverages a differentiable
sorting method applied on top of pretrained representations, such as
DINOv2-registers to bootstrap the learning signal and further improve upon
them. This dense post-pretraining leads to superior performance across various
models and datasets, despite requiring only 19 hours on a single GPU. We
demonstrate that this method generates high-quality dense feature encoders and
establish several new state-of-the-art results: +5.5% and + 6% for
non-parametric in-context semantic segmentation on ADE20k and Pascal VOC, and
+7.2% and +5.7% for linear segmentation evaluations on COCO-Things and -Stuff.Summary
AI-Generated Summary