Apprentissage par transfert pour la classification fine à l'aide de l'apprentissage semi-supervisé et des transformeurs visuels
Transfer Learning for Fine-grained Classification Using Semi-supervised Learning and Visual Transformers
May 17, 2023
Auteurs: Manuel Lagunas, Brayan Impata, Victor Martinez, Virginia Fernandez, Christos Georgakis, Sofia Braun, Felipe Bertrand
cs.AI
Résumé
La classification fine est une tâche complexe qui consiste à identifier des différences subtiles entre des objets appartenant à la même catégorie. Cette tâche est particulièrement difficile dans des scénarios où les données sont rares. Les transformeurs visuels (ViT) ont récemment émergé comme un outil puissant pour la classification d'images, grâce à leur capacité à apprendre des représentations hautement expressives des données visuelles en utilisant des mécanismes d'auto-attention. Dans ce travail, nous explorons Semi-ViT, un modèle ViT affiné à l'aide de techniques d'apprentissage semi-supervisé, adapté aux situations où les données annotées sont insuffisantes. Ce cas est particulièrement courant dans le commerce électronique, où les images sont facilement disponibles, mais les étiquettes sont bruyantes, inexistantes ou coûteuses à obtenir. Nos résultats démontrent que Semi-ViT surpasse les réseaux de neurones convolutifs (CNN) traditionnels et les ViT, même lorsqu'il est affiné avec un nombre limité de données annotées. Ces résultats indiquent que les Semi-ViT offrent un potentiel significatif pour les applications nécessitant une classification précise et fine des données visuelles.
English
Fine-grained classification is a challenging task that involves identifying
subtle differences between objects within the same category. This task is
particularly challenging in scenarios where data is scarce. Visual transformers
(ViT) have recently emerged as a powerful tool for image classification, due to
their ability to learn highly expressive representations of visual data using
self-attention mechanisms. In this work, we explore Semi-ViT, a ViT model fine
tuned using semi-supervised learning techniques, suitable for situations where
we have lack of annotated data. This is particularly common in e-commerce,
where images are readily available but labels are noisy, nonexistent, or
expensive to obtain. Our results demonstrate that Semi-ViT outperforms
traditional convolutional neural networks (CNN) and ViTs, even when fine-tuned
with limited annotated data. These findings indicate that Semi-ViTs hold
significant promise for applications that require precise and fine-grained
classification of visual data.