Точное обнаружение - не единственное, что вам нужно для борьбы с помехами в метках в веб-шумных наборах данных.

Аннотация

Обучение классификатора на данных, полученных с помощью веб-сканирования, требует использования алгоритмов обучения, устойчивых к ошибкам разметки и несущественным примерам. В данной статье основывается на недавних эмпирических наблюдениях, показывающих, что применение неконтролируемого контрастного обучения к шумным данным, полученным с веб-сайтов, приводит к формированию признакового представления, в котором образцы внутри диапазона (ID) и вне диапазона (OOD) линейно разделимы. Мы показываем, что прямая оценка разделяющей гиперплоскости действительно позволяет точно обнаруживать образцы OOD, однако, удивительным образом, это обнаружение не приводит к увеличению точности классификации. Глубже изучая это явление, мы обнаруживаем, что почти идеальное обнаружение упускает тип чистых примеров, которые ценны для обучения с учителем. Эти примеры часто представляют собой визуально простые изображения, которые относительно легко идентифицировать как чистые примеры с использованием стандартных методов потерь или на основе расстояния, несмотря на то, что они плохо разделяются от распределения OOD при использовании неконтролируемого обучения. Поскольку мы также наблюдаем низкую корреляцию с метриками SOTA, это заставляет нас предложить гибридное решение, которое чередует обнаружение шума с использованием линейного разделения и передового (SOTA) подхода с низкими потерями. Когда это сочетается с алгоритмом SOTA PLS, мы значительно улучшаем результаты SOTA для классификации изображений в реальном мире в условиях наличия шума на веб-сайтах github.com/PaulAlbert31/LSA

English

Training a classifier on web-crawled data demands learning algorithms that are robust to annotation errors and irrelevant examples. This paper builds upon the recent empirical observation that applying unsupervised contrastive learning to noisy, web-crawled datasets yields a feature representation under which the in-distribution (ID) and out-of-distribution (OOD) samples are linearly separable. We show that direct estimation of the separating hyperplane can indeed offer an accurate detection of OOD samples, and yet, surprisingly, this detection does not translate into gains in classification accuracy. Digging deeper into this phenomenon, we discover that the near-perfect detection misses a type of clean examples that are valuable for supervised learning. These examples often represent visually simple images, which are relatively easy to identify as clean examples using standard loss- or distance-based methods despite being poorly separated from the OOD distribution using unsupervised learning. Because we further observe a low correlation with SOTA metrics, this urges us to propose a hybrid solution that alternates between noise detection using linear separation and a state-of-the-art (SOTA) small-loss approach. When combined with the SOTA algorithm PLS, we substantially improve SOTA results for real-world image classification in the presence of web noise github.com/PaulAlbert31/LSA

Точное обнаружение - не единственное, что вам нужно для борьбы с помехами в метках в веб-шумных наборах данных.

An accurate detection is not all you need to combat label noise in web-noisy datasets

Аннотация

Support