Apprentissage par transfert pour la classification fine à l'aide de l'apprentissage semi-supervisé et des transformeurs visuels

Résumé

La classification fine est une tâche complexe qui consiste à identifier des différences subtiles entre des objets appartenant à la même catégorie. Cette tâche est particulièrement difficile dans des scénarios où les données sont rares. Les transformeurs visuels (ViT) ont récemment émergé comme un outil puissant pour la classification d'images, grâce à leur capacité à apprendre des représentations hautement expressives des données visuelles en utilisant des mécanismes d'auto-attention. Dans ce travail, nous explorons Semi-ViT, un modèle ViT affiné à l'aide de techniques d'apprentissage semi-supervisé, adapté aux situations où les données annotées sont insuffisantes. Ce cas est particulièrement courant dans le commerce électronique, où les images sont facilement disponibles, mais les étiquettes sont bruyantes, inexistantes ou coûteuses à obtenir. Nos résultats démontrent que Semi-ViT surpasse les réseaux de neurones convolutifs (CNN) traditionnels et les ViT, même lorsqu'il est affiné avec un nombre limité de données annotées. Ces résultats indiquent que les Semi-ViT offrent un potentiel significatif pour les applications nécessitant une classification précise et fine des données visuelles.

English

Fine-grained classification is a challenging task that involves identifying subtle differences between objects within the same category. This task is particularly challenging in scenarios where data is scarce. Visual transformers (ViT) have recently emerged as a powerful tool for image classification, due to their ability to learn highly expressive representations of visual data using self-attention mechanisms. In this work, we explore Semi-ViT, a ViT model fine tuned using semi-supervised learning techniques, suitable for situations where we have lack of annotated data. This is particularly common in e-commerce, where images are readily available but labels are noisy, nonexistent, or expensive to obtain. Our results demonstrate that Semi-ViT outperforms traditional convolutional neural networks (CNN) and ViTs, even when fine-tuned with limited annotated data. These findings indicate that Semi-ViTs hold significant promise for applications that require precise and fine-grained classification of visual data.

Apprentissage par transfert pour la classification fine à l'aide de l'apprentissage semi-supervisé et des transformeurs visuels

Transfer Learning for Fine-grained Classification Using Semi-supervised Learning and Visual Transformers

Résumé

Support