Apprendimento Trasferito per la Classificazione Fine-Grained Utilizzando Apprendimento Semi-Supervisionato e Visual Transformers

Abstract

La classificazione fine-grained è un compito impegnativo che implica l'identificazione di differenze sottili tra oggetti appartenenti alla stessa categoria. Questo compito è particolarmente complesso negli scenari in cui i dati sono scarsi. I visual transformer (ViT) sono emersi recentemente come uno strumento potente per la classificazione di immagini, grazie alla loro capacità di apprendere rappresentazioni altamente espressive di dati visivi utilizzando meccanismi di self-attention. In questo lavoro, esploriamo Semi-ViT, un modello ViT ottimizzato mediante tecniche di apprendimento semi-supervisionato, adatto a situazioni in cui si dispone di una carenza di dati annotati. Questo è particolarmente comune nel settore dell'e-commerce, dove le immagini sono facilmente disponibili ma le etichette sono rumorose, inesistenti o costose da ottenere. I nostri risultati dimostrano che Semi-ViT supera le tradizionali reti neurali convoluzionali (CNN) e i ViT, anche quando ottimizzati con dati annotati limitati. Questi risultati indicano che i Semi-ViT offrono un potenziale significativo per applicazioni che richiedono una classificazione precisa e fine-grained di dati visivi.

English

Fine-grained classification is a challenging task that involves identifying subtle differences between objects within the same category. This task is particularly challenging in scenarios where data is scarce. Visual transformers (ViT) have recently emerged as a powerful tool for image classification, due to their ability to learn highly expressive representations of visual data using self-attention mechanisms. In this work, we explore Semi-ViT, a ViT model fine tuned using semi-supervised learning techniques, suitable for situations where we have lack of annotated data. This is particularly common in e-commerce, where images are readily available but labels are noisy, nonexistent, or expensive to obtain. Our results demonstrate that Semi-ViT outperforms traditional convolutional neural networks (CNN) and ViTs, even when fine-tuned with limited annotated data. These findings indicate that Semi-ViTs hold significant promise for applications that require precise and fine-grained classification of visual data.

Apprendimento Trasferito per la Classificazione Fine-Grained Utilizzando Apprendimento Semi-Supervisionato e Visual Transformers

Transfer Learning for Fine-grained Classification Using Semi-supervised Learning and Visual Transformers

Abstract

Support