Een nauwkeurige detectie is niet het enige wat nodig is om labelruis in web-noisy datasets te bestrijden.
An accurate detection is not all you need to combat label noise in web-noisy datasets
July 8, 2024
Auteurs: Paul Albert, Jack Valmadre, Eric Arazo, Tarun Krishna, Noel E. O'Connor, Kevin McGuinness
cs.AI
Samenvatting
Het trainen van een classificatiemodel op web-gecrawlde data vereist leer-algoritmen die robuust zijn tegen annotatiefouten en irrelevante voorbeelden. Dit artikel bouwt voort op de recente empirische observatie dat het toepassen van ongecontroleerd contrastief leren op lawaaierige, web-gecrawlde datasets een kenmerkrepresentatie oplevert waarbinnen de in-distributie (ID) en out-of-distributie (OOD) voorbeelden lineair scheidbaar zijn. We tonen aan dat directe schatting van het scheidende hypervlak inderdaad een nauwkeurige detectie van OOD-voorbeelden kan bieden, maar verrassend genoeg vertaalt deze detectie zich niet in verbeteringen in classificatienauwkeurigheid. Door dieper in dit fenomeen te duiken, ontdekken we dat de bijna perfecte detectie een type schone voorbeelden mist die waardevol zijn voor begeleid leren. Deze voorbeelden vertegenwoordigen vaak visueel eenvoudige afbeeldingen, die relatief eenvoudig te identificeren zijn als schone voorbeelden met behulp van standaard verlies- of afstandsgebaseerde methoden, ondanks dat ze slecht gescheiden zijn van de OOD-distributie bij gebruik van ongecontroleerd leren. Omdat we verder een lage correlatie met SOTA-metrics waarnemen, dringt dit ons ertoe een hybride oplossing voor te stellen die afwisselt tussen ruisdetectie met behulp van lineaire scheiding en een state-of-the-art (SOTA) klein-verlies-benadering. Wanneer gecombineerd met het SOTA-algoritme PLS, verbeteren we de SOTA-resultaten voor beeldclassificatie in de echte wereld aanzienlijk in de aanwezigheid van webruis github.com/PaulAlbert31/LSA.
English
Training a classifier on web-crawled data demands learning algorithms that
are robust to annotation errors and irrelevant examples. This paper builds upon
the recent empirical observation that applying unsupervised contrastive
learning to noisy, web-crawled datasets yields a feature representation under
which the in-distribution (ID) and out-of-distribution (OOD) samples are
linearly separable. We show that direct estimation of the separating hyperplane
can indeed offer an accurate detection of OOD samples, and yet, surprisingly,
this detection does not translate into gains in classification accuracy.
Digging deeper into this phenomenon, we discover that the near-perfect
detection misses a type of clean examples that are valuable for supervised
learning. These examples often represent visually simple images, which are
relatively easy to identify as clean examples using standard loss- or
distance-based methods despite being poorly separated from the OOD distribution
using unsupervised learning. Because we further observe a low correlation with
SOTA metrics, this urges us to propose a hybrid solution that alternates
between noise detection using linear separation and a state-of-the-art (SOTA)
small-loss approach. When combined with the SOTA algorithm PLS, we
substantially improve SOTA results for real-world image classification in the
presence of web noise github.com/PaulAlbert31/LSA