Transfer Learning voor Fijnmazige Classificatie met Semi-gestuurd Leren en Visuele Transformers
Transfer Learning for Fine-grained Classification Using Semi-supervised Learning and Visual Transformers
May 17, 2023
Auteurs: Manuel Lagunas, Brayan Impata, Victor Martinez, Virginia Fernandez, Christos Georgakis, Sofia Braun, Felipe Bertrand
cs.AI
Samenvatting
Fijnmazige classificatie is een uitdagende taak die het identificeren van subtiele verschillen tussen objecten binnen dezelfde categorie omvat. Deze taak is vooral moeilijk in scenario's waar weinig data beschikbaar is. Visuele transformers (ViT) zijn recent naar voren gekomen als een krachtig hulpmiddel voor beeldclassificatie, dankzij hun vermogen om zeer expressieve representaties van visuele data te leren met behulp van self-attention-mechanismen. In dit werk onderzoeken we Semi-ViT, een ViT-model dat is afgestemd met semi-gesuperviseerde leertechnieken, geschikt voor situaties waarin we een gebrek hebben aan geannoteerde data. Dit komt vooral veel voor in e-commerce, waar afbeeldingen ruimschoots beschikbaar zijn, maar labels onnauwkeurig, afwezig of duur om te verkrijgen zijn. Onze resultaten tonen aan dat Semi-ViT traditionele convolutionele neurale netwerken (CNN) en ViT's overtreft, zelfs wanneer het wordt afgestemd met beperkte geannoteerde data. Deze bevindingen geven aan dat Semi-ViT's veelbelovend zijn voor toepassingen die een precieze en fijnmazige classificatie van visuele data vereisen.
English
Fine-grained classification is a challenging task that involves identifying
subtle differences between objects within the same category. This task is
particularly challenging in scenarios where data is scarce. Visual transformers
(ViT) have recently emerged as a powerful tool for image classification, due to
their ability to learn highly expressive representations of visual data using
self-attention mechanisms. In this work, we explore Semi-ViT, a ViT model fine
tuned using semi-supervised learning techniques, suitable for situations where
we have lack of annotated data. This is particularly common in e-commerce,
where images are readily available but labels are noisy, nonexistent, or
expensive to obtain. Our results demonstrate that Semi-ViT outperforms
traditional convolutional neural networks (CNN) and ViTs, even when fine-tuned
with limited annotated data. These findings indicate that Semi-ViTs hold
significant promise for applications that require precise and fine-grained
classification of visual data.