ChatPaper.aiChatPaper

NeCo: Melhorando as representações espaciais do DINOv2 em 19 horas de GPU com Consistência de Vizinhos de Patch

NeCo: Improving DINOv2's spatial representations in 19 GPU hours with Patch Neighbor Consistency

August 20, 2024
Autores: Valentinos Pariza, Mohammadreza Salehi, Gertjan Burghouts, Francesco Locatello, Yuki M. Asano
cs.AI

Resumo

Propomos classificar representações de patches entre vistas como um sinal de aprendizado auto-supervisionado inovador para melhorar representações pré-treinadas. Para isso, introduzimos NeCo: Consistência de Vizinhos de Patches, uma nova perda de treinamento que garante consistência de vizinhos mais próximos ao nível de patch entre um modelo aluno e um modelo professor, em relação a lotes de referência. Nosso método aproveita um método de classificação diferenciável aplicado sobre representações pré-treinadas, como DINOv2-registers, para inicializar o sinal de aprendizado e melhorar ainda mais essas representações. Esse pós-treinamento denso resulta em desempenho superior em vários modelos e conjuntos de dados, apesar de exigir apenas 19 horas em uma única GPU. Demonstramos que esse método gera codificadores de características densas de alta qualidade e estabelecemos diversos novos resultados de ponta: +5,5% e +6% para segmentação semântica não paramétrica em contexto em ADE20k e Pascal VOC, e +7,2% e +5,7% para avaliações de segmentação linear em COCO-Things e -Stuff.
English
We propose sorting patch representations across views as a novel self-supervised learning signal to improve pretrained representations. To this end, we introduce NeCo: Patch Neighbor Consistency, a novel training loss that enforces patch-level nearest neighbor consistency across a student and teacher model, relative to reference batches. Our method leverages a differentiable sorting method applied on top of pretrained representations, such as DINOv2-registers to bootstrap the learning signal and further improve upon them. This dense post-pretraining leads to superior performance across various models and datasets, despite requiring only 19 hours on a single GPU. We demonstrate that this method generates high-quality dense feature encoders and establish several new state-of-the-art results: +5.5% and + 6% for non-parametric in-context semantic segmentation on ADE20k and Pascal VOC, and +7.2% and +5.7% for linear segmentation evaluations on COCO-Things and -Stuff.

Summary

AI-Generated Summary

PDF132November 17, 2024