Точное обнаружение - не единственное, что вам нужно для борьбы с помехами в метках в веб-шумных наборах данных.
An accurate detection is not all you need to combat label noise in web-noisy datasets
July 8, 2024
Авторы: Paul Albert, Jack Valmadre, Eric Arazo, Tarun Krishna, Noel E. O'Connor, Kevin McGuinness
cs.AI
Аннотация
Обучение классификатора на данных, полученных с помощью веб-сканирования, требует использования алгоритмов обучения, устойчивых к ошибкам разметки и несущественным примерам. В данной статье основывается на недавних эмпирических наблюдениях, показывающих, что применение неконтролируемого контрастного обучения к шумным данным, полученным с веб-сайтов, приводит к формированию признакового представления, в котором образцы внутри диапазона (ID) и вне диапазона (OOD) линейно разделимы. Мы показываем, что прямая оценка разделяющей гиперплоскости действительно позволяет точно обнаруживать образцы OOD, однако, удивительным образом, это обнаружение не приводит к увеличению точности классификации. Глубже изучая это явление, мы обнаруживаем, что почти идеальное обнаружение упускает тип чистых примеров, которые ценны для обучения с учителем. Эти примеры часто представляют собой визуально простые изображения, которые относительно легко идентифицировать как чистые примеры с использованием стандартных методов потерь или на основе расстояния, несмотря на то, что они плохо разделяются от распределения OOD при использовании неконтролируемого обучения. Поскольку мы также наблюдаем низкую корреляцию с метриками SOTA, это заставляет нас предложить гибридное решение, которое чередует обнаружение шума с использованием линейного разделения и передового (SOTA) подхода с низкими потерями. Когда это сочетается с алгоритмом SOTA PLS, мы значительно улучшаем результаты SOTA для классификации изображений в реальном мире в условиях наличия шума на веб-сайтах github.com/PaulAlbert31/LSA
English
Training a classifier on web-crawled data demands learning algorithms that
are robust to annotation errors and irrelevant examples. This paper builds upon
the recent empirical observation that applying unsupervised contrastive
learning to noisy, web-crawled datasets yields a feature representation under
which the in-distribution (ID) and out-of-distribution (OOD) samples are
linearly separable. We show that direct estimation of the separating hyperplane
can indeed offer an accurate detection of OOD samples, and yet, surprisingly,
this detection does not translate into gains in classification accuracy.
Digging deeper into this phenomenon, we discover that the near-perfect
detection misses a type of clean examples that are valuable for supervised
learning. These examples often represent visually simple images, which are
relatively easy to identify as clean examples using standard loss- or
distance-based methods despite being poorly separated from the OOD distribution
using unsupervised learning. Because we further observe a low correlation with
SOTA metrics, this urges us to propose a hybrid solution that alternates
between noise detection using linear separation and a state-of-the-art (SOTA)
small-loss approach. When combined with the SOTA algorithm PLS, we
substantially improve SOTA results for real-world image classification in the
presence of web noise github.com/PaulAlbert31/LSASummary
AI-Generated Summary