ChatPaper.aiChatPaper

NeCo: Mejorando las representaciones espaciales de DINOv2 en 19 horas de GPU con Consistencia de Vecinos de Parches

NeCo: Improving DINOv2's spatial representations in 19 GPU hours with Patch Neighbor Consistency

August 20, 2024
Autores: Valentinos Pariza, Mohammadreza Salehi, Gertjan Burghouts, Francesco Locatello, Yuki M. Asano
cs.AI

Resumen

Proponemos ordenar representaciones de parches entre vistas como una señal de aprendizaje auto-supervisado novedosa para mejorar las representaciones preentrenadas. Con este fin, presentamos NeCo: Consistencia de Vecinos de Parches, una pérdida de entrenamiento novedosa que garantiza la consistencia de vecinos más cercanos a nivel de parche entre un modelo estudiante y un modelo profesor, en relación con lotes de referencia. Nuestro método aprovecha un método de ordenamiento diferenciable aplicado sobre representaciones preentrenadas, como DINOv2, para inicializar la señal de aprendizaje y mejorar aún más sobre ellas. Este post-entrenamiento denso conduce a un rendimiento superior en varios modelos y conjuntos de datos, a pesar de requerir solo 19 horas en una sola GPU. Demostramos que este método genera codificadores de características densas de alta calidad y establece varios nuevos resultados de vanguardia: +5.5% y +6% para segmentación semántica no paramétrica en contexto en ADE20k y Pascal VOC, y +7.2% y +5.7% para evaluaciones de segmentación lineal en COCO-Things y -Stuff.
English
We propose sorting patch representations across views as a novel self-supervised learning signal to improve pretrained representations. To this end, we introduce NeCo: Patch Neighbor Consistency, a novel training loss that enforces patch-level nearest neighbor consistency across a student and teacher model, relative to reference batches. Our method leverages a differentiable sorting method applied on top of pretrained representations, such as DINOv2-registers to bootstrap the learning signal and further improve upon them. This dense post-pretraining leads to superior performance across various models and datasets, despite requiring only 19 hours on a single GPU. We demonstrate that this method generates high-quality dense feature encoders and establish several new state-of-the-art results: +5.5% and + 6% for non-parametric in-context semantic segmentation on ADE20k and Pascal VOC, and +7.2% and +5.7% for linear segmentation evaluations on COCO-Things and -Stuff.

Summary

AI-Generated Summary

PDF132November 17, 2024