Трансферное обучение для классификации с высокой детализацией с использованием полуавтоматического обучения и визуальных трансформеров
Transfer Learning for Fine-grained Classification Using Semi-supervised Learning and Visual Transformers
May 17, 2023
Авторы: Manuel Lagunas, Brayan Impata, Victor Martinez, Virginia Fernandez, Christos Georgakis, Sofia Braun, Felipe Bertrand
cs.AI
Аннотация
Точная классификация (fine-grained classification) представляет собой сложную задачу, связанную с распознаванием тонких различий между объектами внутри одной категории. Эта задача особенно трудна в условиях ограниченного объема данных. Визуальные трансформеры (ViT) недавно зарекомендовали себя как мощный инструмент для классификации изображений благодаря их способности обучать высоко выразительные представления визуальных данных с использованием механизмов самовнимания (self-attention). В данной работе мы исследуем Semi-ViT — модель ViT, дообученную с использованием методов полуконтролируемого обучения, что подходит для ситуаций, когда аннотированных данных недостаточно. Это особенно актуально в сфере электронной коммерции, где изображения доступны в большом количестве, но метки либо зашумлены, либо отсутствуют, либо их получение связано с высокими затратами. Наши результаты показывают, что Semi-ViT превосходит традиционные сверточные нейронные сети (CNN) и стандартные ViT, даже при дообучении на ограниченных аннотированных данных. Эти результаты свидетельствуют о значительном потенциале Semi-ViT для приложений, требующих точной и детализированной классификации визуальных данных.
English
Fine-grained classification is a challenging task that involves identifying
subtle differences between objects within the same category. This task is
particularly challenging in scenarios where data is scarce. Visual transformers
(ViT) have recently emerged as a powerful tool for image classification, due to
their ability to learn highly expressive representations of visual data using
self-attention mechanisms. In this work, we explore Semi-ViT, a ViT model fine
tuned using semi-supervised learning techniques, suitable for situations where
we have lack of annotated data. This is particularly common in e-commerce,
where images are readily available but labels are noisy, nonexistent, or
expensive to obtain. Our results demonstrate that Semi-ViT outperforms
traditional convolutional neural networks (CNN) and ViTs, even when fine-tuned
with limited annotated data. These findings indicate that Semi-ViTs hold
significant promise for applications that require precise and fine-grained
classification of visual data.