NeCo: Melhorando as representações espaciais do DINOv2 em 19 horas de GPU com Consistência de Vizinhos de Patch

Resumo

Propomos classificar representações de patches entre vistas como um sinal de aprendizado auto-supervisionado inovador para melhorar representações pré-treinadas. Para isso, introduzimos NeCo: Consistência de Vizinhos de Patches, uma nova perda de treinamento que garante consistência de vizinhos mais próximos ao nível de patch entre um modelo aluno e um modelo professor, em relação a lotes de referência. Nosso método aproveita um método de classificação diferenciável aplicado sobre representações pré-treinadas, como DINOv2-registers, para inicializar o sinal de aprendizado e melhorar ainda mais essas representações. Esse pós-treinamento denso resulta em desempenho superior em vários modelos e conjuntos de dados, apesar de exigir apenas 19 horas em uma única GPU. Demonstramos que esse método gera codificadores de características densas de alta qualidade e estabelecemos diversos novos resultados de ponta: +5,5% e +6% para segmentação semântica não paramétrica em contexto em ADE20k e Pascal VOC, e +7,2% e +5,7% para avaliações de segmentação linear em COCO-Things e -Stuff.

English

We propose sorting patch representations across views as a novel self-supervised learning signal to improve pretrained representations. To this end, we introduce NeCo: Patch Neighbor Consistency, a novel training loss that enforces patch-level nearest neighbor consistency across a student and teacher model, relative to reference batches. Our method leverages a differentiable sorting method applied on top of pretrained representations, such as DINOv2-registers to bootstrap the learning signal and further improve upon them. This dense post-pretraining leads to superior performance across various models and datasets, despite requiring only 19 hours on a single GPU. We demonstrate that this method generates high-quality dense feature encoders and establish several new state-of-the-art results: +5.5% and + 6% for non-parametric in-context semantic segmentation on ADE20k and Pascal VOC, and +7.2% and +5.7% for linear segmentation evaluations on COCO-Things and -Stuff.

NeCo: Melhorando as representações espaciais do DINOv2 em 19 horas de GPU com Consistência de Vizinhos de Patch

NeCo: Improving DINOv2's spatial representations in 19 GPU hours with Patch Neighbor Consistency

Resumo

Summary

Support

Support