Transferência de Aprendizado para Classificação de Alta Granularidade Usando Aprendizado Semi-supervisionado e Transformadores Visuais

Resumo

A classificação de granularidade fina é uma tarefa desafiadora que envolve identificar diferenças sutis entre objetos dentro da mesma categoria. Essa tarefa é particularmente difícil em cenários onde os dados são escassos. Transformadores visuais (ViT) surgiram recentemente como uma ferramenta poderosa para classificação de imagens, devido à sua capacidade de aprender representações altamente expressivas de dados visuais usando mecanismos de auto-atenção. Neste trabalho, exploramos o Semi-ViT, um modelo ViT ajustado usando técnicas de aprendizado semi-supervisionado, adequado para situações em que há escassez de dados anotados. Isso é particularmente comum no comércio eletrônico, onde as imagens estão prontamente disponíveis, mas os rótulos são ruidosos, inexistentes ou caros de obter. Nossos resultados demonstram que o Semi-ViT supera as redes neurais convolucionais (CNN) tradicionais e os ViTs, mesmo quando ajustados com dados anotados limitados. Esses achados indicam que os Semi-ViTs têm um potencial significativo para aplicações que exigem classificação visual precisa e de granularidade fina.

English

Fine-grained classification is a challenging task that involves identifying subtle differences between objects within the same category. This task is particularly challenging in scenarios where data is scarce. Visual transformers (ViT) have recently emerged as a powerful tool for image classification, due to their ability to learn highly expressive representations of visual data using self-attention mechanisms. In this work, we explore Semi-ViT, a ViT model fine tuned using semi-supervised learning techniques, suitable for situations where we have lack of annotated data. This is particularly common in e-commerce, where images are readily available but labels are noisy, nonexistent, or expensive to obtain. Our results demonstrate that Semi-ViT outperforms traditional convolutional neural networks (CNN) and ViTs, even when fine-tuned with limited annotated data. These findings indicate that Semi-ViTs hold significant promise for applications that require precise and fine-grained classification of visual data.

Transferência de Aprendizado para Classificação de Alta Granularidade Usando Aprendizado Semi-supervisionado e Transformadores Visuais

Transfer Learning for Fine-grained Classification Using Semi-supervised Learning and Visual Transformers

Resumo

Support