ChatPaper.aiChatPaper

Eine präzise Erkennung ist nicht alles, was Sie benötigen, um Labelrauschen in web-noise Datensätzen zu bekämpfen.

An accurate detection is not all you need to combat label noise in web-noisy datasets

July 8, 2024
Autoren: Paul Albert, Jack Valmadre, Eric Arazo, Tarun Krishna, Noel E. O'Connor, Kevin McGuinness
cs.AI

Zusammenfassung

Das Training eines Klassifizierers auf Web-gesammelten Daten erfordert Lernalgorithmen, die robust gegenüber Annotierungsfehlern und irrelevanten Beispielen sind. Dieser Artikel baut auf der kürzlich gemachten empirischen Beobachtung auf, dass die Anwendung unüberwachter kontrastiver Lernverfahren auf rauschigen, aus dem Web gesammelten Datensätzen eine Merkmalsdarstellung liefert, unter der die in-Verteilung (ID) und außerhalb-der-Verteilung (OOD) Proben linear separierbar sind. Wir zeigen, dass die direkte Schätzung der trennenden Hyperebene tatsächlich eine genaue Erkennung von OOD-Proben bieten kann, und dennoch überraschenderweise führt diese Erkennung nicht zu Verbesserungen der Klassifikationsgenauigkeit. Bei genauerer Untersuchung dieses Phänomens entdecken wir, dass die nahezu perfekte Erkennung eine Art sauberer Beispiele verpasst, die für überwachtes Lernen wertvoll sind. Diese Beispiele stellen oft visuell einfache Bilder dar, die relativ einfach als saubere Beispiele identifiziert werden können, indem Standardverlust- oder Distanzbasierte Methoden verwendet werden, obwohl sie durch unüberwachtes Lernen schlecht von der OOD-Verteilung separiert sind. Da wir zudem eine geringe Korrelation mit SOTA-Metriken beobachten, drängt uns dies dazu, einen hybriden Lösungsansatz vorzuschlagen, der zwischen der Rauscherkennung mittels linearer Separation und einem State-of-the-Art (SOTA) Small-Loss-Ansatz abwechselt. In Kombination mit dem SOTA-Algorithmus PLS verbessern wir signifikant die SOTA-Ergebnisse für die Bildklassifizierung in der realen Welt in Gegenwart von Web-Rauschen github.com/PaulAlbert31/LSA.
English
Training a classifier on web-crawled data demands learning algorithms that are robust to annotation errors and irrelevant examples. This paper builds upon the recent empirical observation that applying unsupervised contrastive learning to noisy, web-crawled datasets yields a feature representation under which the in-distribution (ID) and out-of-distribution (OOD) samples are linearly separable. We show that direct estimation of the separating hyperplane can indeed offer an accurate detection of OOD samples, and yet, surprisingly, this detection does not translate into gains in classification accuracy. Digging deeper into this phenomenon, we discover that the near-perfect detection misses a type of clean examples that are valuable for supervised learning. These examples often represent visually simple images, which are relatively easy to identify as clean examples using standard loss- or distance-based methods despite being poorly separated from the OOD distribution using unsupervised learning. Because we further observe a low correlation with SOTA metrics, this urges us to propose a hybrid solution that alternates between noise detection using linear separation and a state-of-the-art (SOTA) small-loss approach. When combined with the SOTA algorithm PLS, we substantially improve SOTA results for real-world image classification in the presence of web noise github.com/PaulAlbert31/LSA

Summary

AI-Generated Summary

PDF44November 28, 2024