Transferlernen für feinkörnige Klassifikation unter Verwendung von halbüberwachtem Lernen und visuellen Transformern
Transfer Learning for Fine-grained Classification Using Semi-supervised Learning and Visual Transformers
May 17, 2023
Autoren: Manuel Lagunas, Brayan Impata, Victor Martinez, Virginia Fernandez, Christos Georgakis, Sofia Braun, Felipe Bertrand
cs.AI
Zusammenfassung
Die fein abgestufte Klassifizierung ist eine anspruchsvolle Aufgabe, bei der es darum geht, subtile Unterschiede zwischen Objekten derselben Kategorie zu identifizieren. Diese Aufgabe ist besonders schwierig in Szenarien, in denen Daten knapp sind. Visuelle Transformer (ViT) haben sich kürzlich als leistungsstarkes Werkzeug für die Bildklassifizierung erwiesen, da sie in der Lage sind, hochgradig expressive Repräsentationen visueller Daten mithilfe von Selbstaufmerksamkeitsmechanismen zu erlernen. In dieser Arbeit untersuchen wir Semi-ViT, ein ViT-Modell, das mit semi-überwachten Lernverfahren feinabgestimmt wurde und für Situationen geeignet ist, in denen annotierte Daten fehlen. Dies ist insbesondere im E-Commerce häufig der Fall, wo Bilder leicht verfügbar sind, aber Labels verrauscht, nicht vorhanden oder teuer zu beschaffen sind. Unsere Ergebnisse zeigen, dass Semi-ViT traditionelle Convolutional Neural Networks (CNN) und ViTs übertrifft, selbst wenn es mit begrenzten annotierten Daten feinabgestimmt wird. Diese Erkenntnisse deuten darauf hin, dass Semi-ViTs ein erhebliches Potenzial für Anwendungen besitzen, die eine präzise und fein abgestufte Klassifizierung visueller Daten erfordern.
English
Fine-grained classification is a challenging task that involves identifying
subtle differences between objects within the same category. This task is
particularly challenging in scenarios where data is scarce. Visual transformers
(ViT) have recently emerged as a powerful tool for image classification, due to
their ability to learn highly expressive representations of visual data using
self-attention mechanisms. In this work, we explore Semi-ViT, a ViT model fine
tuned using semi-supervised learning techniques, suitable for situations where
we have lack of annotated data. This is particularly common in e-commerce,
where images are readily available but labels are noisy, nonexistent, or
expensive to obtain. Our results demonstrate that Semi-ViT outperforms
traditional convolutional neural networks (CNN) and ViTs, even when fine-tuned
with limited annotated data. These findings indicate that Semi-ViTs hold
significant promise for applications that require precise and fine-grained
classification of visual data.