NeCo: Mejorando las representaciones espaciales de DINOv2 en 19 horas de GPU con Consistencia de Vecinos de Parches

Resumen

Proponemos ordenar representaciones de parches entre vistas como una señal de aprendizaje auto-supervisado novedosa para mejorar las representaciones preentrenadas. Con este fin, presentamos NeCo: Consistencia de Vecinos de Parches, una pérdida de entrenamiento novedosa que garantiza la consistencia de vecinos más cercanos a nivel de parche entre un modelo estudiante y un modelo profesor, en relación con lotes de referencia. Nuestro método aprovecha un método de ordenamiento diferenciable aplicado sobre representaciones preentrenadas, como DINOv2, para inicializar la señal de aprendizaje y mejorar aún más sobre ellas. Este post-entrenamiento denso conduce a un rendimiento superior en varios modelos y conjuntos de datos, a pesar de requerir solo 19 horas en una sola GPU. Demostramos que este método genera codificadores de características densas de alta calidad y establece varios nuevos resultados de vanguardia: +5.5% y +6% para segmentación semántica no paramétrica en contexto en ADE20k y Pascal VOC, y +7.2% y +5.7% para evaluaciones de segmentación lineal en COCO-Things y -Stuff.

English

We propose sorting patch representations across views as a novel self-supervised learning signal to improve pretrained representations. To this end, we introduce NeCo: Patch Neighbor Consistency, a novel training loss that enforces patch-level nearest neighbor consistency across a student and teacher model, relative to reference batches. Our method leverages a differentiable sorting method applied on top of pretrained representations, such as DINOv2-registers to bootstrap the learning signal and further improve upon them. This dense post-pretraining leads to superior performance across various models and datasets, despite requiring only 19 hours on a single GPU. We demonstrate that this method generates high-quality dense feature encoders and establish several new state-of-the-art results: +5.5% and + 6% for non-parametric in-context semantic segmentation on ADE20k and Pascal VOC, and +7.2% and +5.7% for linear segmentation evaluations on COCO-Things and -Stuff.

NeCo: Mejorando las representaciones espaciales de DINOv2 en 19 horas de GPU con Consistencia de Vecinos de Parches

NeCo: Improving DINOv2's spatial representations in 19 GPU hours with Patch Neighbor Consistency

Resumen

Support