Transferencia de Aprendizaje para Clasificación de Grano Fino Usando Aprendizaje Semi-supervisado y Transformadores Visuales

Resumen

La clasificación de grano fino es una tarea desafiante que implica identificar diferencias sutiles entre objetos dentro de la misma categoría. Esta tarea es particularmente difícil en escenarios donde los datos son escasos. Los transformadores visuales (ViT) han surgido recientemente como una herramienta poderosa para la clasificación de imágenes, debido a su capacidad para aprender representaciones altamente expresivas de datos visuales utilizando mecanismos de autoatención. En este trabajo, exploramos Semi-ViT, un modelo ViT ajustado mediante técnicas de aprendizaje semi-supervisado, adecuado para situaciones en las que carecemos de datos anotados. Esto es particularmente común en el comercio electrónico, donde las imágenes están fácilmente disponibles, pero las etiquetas son ruidosas, inexistentes o costosas de obtener. Nuestros resultados demuestran que Semi-ViT supera a las redes neuronales convolucionales (CNN) tradicionales y a los ViT, incluso cuando se ajustan con datos anotados limitados. Estos hallazgos indican que los Semi-ViT tienen un potencial significativo para aplicaciones que requieren una clasificación precisa y de grano fino de datos visuales.

English

Fine-grained classification is a challenging task that involves identifying subtle differences between objects within the same category. This task is particularly challenging in scenarios where data is scarce. Visual transformers (ViT) have recently emerged as a powerful tool for image classification, due to their ability to learn highly expressive representations of visual data using self-attention mechanisms. In this work, we explore Semi-ViT, a ViT model fine tuned using semi-supervised learning techniques, suitable for situations where we have lack of annotated data. This is particularly common in e-commerce, where images are readily available but labels are noisy, nonexistent, or expensive to obtain. Our results demonstrate that Semi-ViT outperforms traditional convolutional neural networks (CNN) and ViTs, even when fine-tuned with limited annotated data. These findings indicate that Semi-ViTs hold significant promise for applications that require precise and fine-grained classification of visual data.

Transferencia de Aprendizaje para Clasificación de Grano Fino Usando Aprendizaje Semi-supervisado y Transformadores Visuales

Transfer Learning for Fine-grained Classification Using Semi-supervised Learning and Visual Transformers

Resumen

Support