ChatPaper.aiChatPaper

NeCo: Verbesserung der räumlichen Darstellungen von DINOv2 in 19 GPU-Stunden mit Patch-Nachbarkonsistenz

NeCo: Improving DINOv2's spatial representations in 19 GPU hours with Patch Neighbor Consistency

August 20, 2024
Autoren: Valentinos Pariza, Mohammadreza Salehi, Gertjan Burghouts, Francesco Locatello, Yuki M. Asano
cs.AI

Zusammenfassung

Wir schlagen vor, Patch-Repräsentationen über Ansichten hinweg als neuartiges selbstüberwachtes Lernsignal zu sortieren, um vortrainierte Repräsentationen zu verbessern. Zu diesem Zweck führen wir NeCo ein: Patch-Nachbar-Konsistenz, ein neuartiger Trainingsverlust, der die konsistente nächstgelegene Nachbar auf Patch-Ebene zwischen einem Schüler- und Lehrmodell im Vergleich zu Referenzbatches erzwingt. Unsere Methode nutzt eine differenzierbare Sortiermethode, die auf vortrainierten Repräsentationen angewendet wird, wie z.B. DINOv2-Register, um das Lernsignal zu booten und weiter zu verbessern. Dieses dichte Post-Pretraining führt zu überlegener Leistung über verschiedene Modelle und Datensätze, obwohl nur 19 Stunden auf einer einzigen GPU benötigt werden. Wir zeigen, dass diese Methode hochwertige dichte Merkmalscodierer erzeugt und mehrere neue Spitzenleistungsergebnisse etabliert: +5,5 % und +6 % für nicht-parametrische kontextbezogene semantische Segmentierung auf ADE20k und Pascal VOC, sowie +7,2 % und +5,7 % für lineare Segmentierungsbewertungen auf COCO-Things und -Stuff.
English
We propose sorting patch representations across views as a novel self-supervised learning signal to improve pretrained representations. To this end, we introduce NeCo: Patch Neighbor Consistency, a novel training loss that enforces patch-level nearest neighbor consistency across a student and teacher model, relative to reference batches. Our method leverages a differentiable sorting method applied on top of pretrained representations, such as DINOv2-registers to bootstrap the learning signal and further improve upon them. This dense post-pretraining leads to superior performance across various models and datasets, despite requiring only 19 hours on a single GPU. We demonstrate that this method generates high-quality dense feature encoders and establish several new state-of-the-art results: +5.5% and + 6% for non-parametric in-context semantic segmentation on ADE20k and Pascal VOC, and +7.2% and +5.7% for linear segmentation evaluations on COCO-Things and -Stuff.

Summary

AI-Generated Summary

PDF132November 17, 2024