Transferencia de Aprendizaje para Clasificación de Grano Fino Usando Aprendizaje Semi-supervisado y Transformadores Visuales
Transfer Learning for Fine-grained Classification Using Semi-supervised Learning and Visual Transformers
May 17, 2023
Autores: Manuel Lagunas, Brayan Impata, Victor Martinez, Virginia Fernandez, Christos Georgakis, Sofia Braun, Felipe Bertrand
cs.AI
Resumen
La clasificación de grano fino es una tarea desafiante que implica identificar diferencias sutiles entre objetos dentro de la misma categoría. Esta tarea es particularmente difícil en escenarios donde los datos son escasos. Los transformadores visuales (ViT) han surgido recientemente como una herramienta poderosa para la clasificación de imágenes, debido a su capacidad para aprender representaciones altamente expresivas de datos visuales utilizando mecanismos de autoatención. En este trabajo, exploramos Semi-ViT, un modelo ViT ajustado mediante técnicas de aprendizaje semi-supervisado, adecuado para situaciones en las que carecemos de datos anotados. Esto es particularmente común en el comercio electrónico, donde las imágenes están fácilmente disponibles, pero las etiquetas son ruidosas, inexistentes o costosas de obtener. Nuestros resultados demuestran que Semi-ViT supera a las redes neuronales convolucionales (CNN) tradicionales y a los ViT, incluso cuando se ajustan con datos anotados limitados. Estos hallazgos indican que los Semi-ViT tienen un potencial significativo para aplicaciones que requieren una clasificación precisa y de grano fino de datos visuales.
English
Fine-grained classification is a challenging task that involves identifying
subtle differences between objects within the same category. This task is
particularly challenging in scenarios where data is scarce. Visual transformers
(ViT) have recently emerged as a powerful tool for image classification, due to
their ability to learn highly expressive representations of visual data using
self-attention mechanisms. In this work, we explore Semi-ViT, a ViT model fine
tuned using semi-supervised learning techniques, suitable for situations where
we have lack of annotated data. This is particularly common in e-commerce,
where images are readily available but labels are noisy, nonexistent, or
expensive to obtain. Our results demonstrate that Semi-ViT outperforms
traditional convolutional neural networks (CNN) and ViTs, even when fine-tuned
with limited annotated data. These findings indicate that Semi-ViTs hold
significant promise for applications that require precise and fine-grained
classification of visual data.