Transferência de Aprendizado para Classificação de Alta Granularidade Usando Aprendizado Semi-supervisionado e Transformadores Visuais
Transfer Learning for Fine-grained Classification Using Semi-supervised Learning and Visual Transformers
May 17, 2023
Autores: Manuel Lagunas, Brayan Impata, Victor Martinez, Virginia Fernandez, Christos Georgakis, Sofia Braun, Felipe Bertrand
cs.AI
Resumo
A classificação de granularidade fina é uma tarefa desafiadora que envolve identificar diferenças sutis entre objetos dentro da mesma categoria. Essa tarefa é particularmente difícil em cenários onde os dados são escassos. Transformadores visuais (ViT) surgiram recentemente como uma ferramenta poderosa para classificação de imagens, devido à sua capacidade de aprender representações altamente expressivas de dados visuais usando mecanismos de auto-atenção. Neste trabalho, exploramos o Semi-ViT, um modelo ViT ajustado usando técnicas de aprendizado semi-supervisionado, adequado para situações em que há escassez de dados anotados. Isso é particularmente comum no comércio eletrônico, onde as imagens estão prontamente disponíveis, mas os rótulos são ruidosos, inexistentes ou caros de obter. Nossos resultados demonstram que o Semi-ViT supera as redes neurais convolucionais (CNN) tradicionais e os ViTs, mesmo quando ajustados com dados anotados limitados. Esses achados indicam que os Semi-ViTs têm um potencial significativo para aplicações que exigem classificação visual precisa e de granularidade fina.
English
Fine-grained classification is a challenging task that involves identifying
subtle differences between objects within the same category. This task is
particularly challenging in scenarios where data is scarce. Visual transformers
(ViT) have recently emerged as a powerful tool for image classification, due to
their ability to learn highly expressive representations of visual data using
self-attention mechanisms. In this work, we explore Semi-ViT, a ViT model fine
tuned using semi-supervised learning techniques, suitable for situations where
we have lack of annotated data. This is particularly common in e-commerce,
where images are readily available but labels are noisy, nonexistent, or
expensive to obtain. Our results demonstrate that Semi-ViT outperforms
traditional convolutional neural networks (CNN) and ViTs, even when fine-tuned
with limited annotated data. These findings indicate that Semi-ViTs hold
significant promise for applications that require precise and fine-grained
classification of visual data.