Apprendimento Trasferito per la Classificazione Fine-Grained Utilizzando Apprendimento Semi-Supervisionato e Visual Transformers
Transfer Learning for Fine-grained Classification Using Semi-supervised Learning and Visual Transformers
May 17, 2023
Autori: Manuel Lagunas, Brayan Impata, Victor Martinez, Virginia Fernandez, Christos Georgakis, Sofia Braun, Felipe Bertrand
cs.AI
Abstract
La classificazione fine-grained è un compito impegnativo che implica l'identificazione di differenze sottili tra oggetti appartenenti alla stessa categoria. Questo compito è particolarmente complesso negli scenari in cui i dati sono scarsi. I visual transformer (ViT) sono emersi recentemente come uno strumento potente per la classificazione di immagini, grazie alla loro capacità di apprendere rappresentazioni altamente espressive di dati visivi utilizzando meccanismi di self-attention. In questo lavoro, esploriamo Semi-ViT, un modello ViT ottimizzato mediante tecniche di apprendimento semi-supervisionato, adatto a situazioni in cui si dispone di una carenza di dati annotati. Questo è particolarmente comune nel settore dell'e-commerce, dove le immagini sono facilmente disponibili ma le etichette sono rumorose, inesistenti o costose da ottenere. I nostri risultati dimostrano che Semi-ViT supera le tradizionali reti neurali convoluzionali (CNN) e i ViT, anche quando ottimizzati con dati annotati limitati. Questi risultati indicano che i Semi-ViT offrono un potenziale significativo per applicazioni che richiedono una classificazione precisa e fine-grained di dati visivi.
English
Fine-grained classification is a challenging task that involves identifying
subtle differences between objects within the same category. This task is
particularly challenging in scenarios where data is scarce. Visual transformers
(ViT) have recently emerged as a powerful tool for image classification, due to
their ability to learn highly expressive representations of visual data using
self-attention mechanisms. In this work, we explore Semi-ViT, a ViT model fine
tuned using semi-supervised learning techniques, suitable for situations where
we have lack of annotated data. This is particularly common in e-commerce,
where images are readily available but labels are noisy, nonexistent, or
expensive to obtain. Our results demonstrate that Semi-ViT outperforms
traditional convolutional neural networks (CNN) and ViTs, even when fine-tuned
with limited annotated data. These findings indicate that Semi-ViTs hold
significant promise for applications that require precise and fine-grained
classification of visual data.