ChatPaper.aiChatPaper

Une détection précise ne suffit pas à elle seule pour lutter contre le bruit des étiquettes dans les ensembles de données bruyants issus du web.

An accurate detection is not all you need to combat label noise in web-noisy datasets

July 8, 2024
Auteurs: Paul Albert, Jack Valmadre, Eric Arazo, Tarun Krishna, Noel E. O'Connor, Kevin McGuinness
cs.AI

Résumé

L'entraînement d'un classifieur sur des données collectées sur le web nécessite des algorithmes d'apprentissage robustes aux erreurs d'annotation et aux exemples non pertinents. Ce travail s'appuie sur une observation empirique récente selon laquelle l'application de l'apprentissage contrastif non supervisé à des ensembles de données bruités et collectés sur le web produit une représentation des caractéristiques sous laquelle les échantillons intra-distribution (ID) et hors-distribution (OOD) sont linéairement séparables. Nous montrons que l'estimation directe de l'hyperplan séparateur permet effectivement une détection précise des échantillons OOD, mais, étonnamment, cette détection ne se traduit pas par une amélioration de la précision de classification. En approfondissant ce phénomène, nous découvrons que cette détection quasi parfaite manque un type d'exemples propres qui sont précieux pour l'apprentissage supervisé. Ces exemples représentent souvent des images visuellement simples, relativement faciles à identifier comme des exemples propres en utilisant des méthodes standard basées sur la perte ou la distance, bien qu'ils soient mal séparés de la distribution OOD par l'apprentissage non supervisé. Comme nous observons également une faible corrélation avec les métriques SOTA (state-of-the-art), cela nous incite à proposer une solution hybride qui alterne entre la détection de bruit par séparation linéaire et une approche SOTA basée sur les petites pertes. En combinant cette solution avec l'algorithme SOTA PLS, nous améliorons considérablement les résultats SOTA pour la classification d'images du monde réel en présence de bruit web. github.com/PaulAlbert31/LSA
English
Training a classifier on web-crawled data demands learning algorithms that are robust to annotation errors and irrelevant examples. This paper builds upon the recent empirical observation that applying unsupervised contrastive learning to noisy, web-crawled datasets yields a feature representation under which the in-distribution (ID) and out-of-distribution (OOD) samples are linearly separable. We show that direct estimation of the separating hyperplane can indeed offer an accurate detection of OOD samples, and yet, surprisingly, this detection does not translate into gains in classification accuracy. Digging deeper into this phenomenon, we discover that the near-perfect detection misses a type of clean examples that are valuable for supervised learning. These examples often represent visually simple images, which are relatively easy to identify as clean examples using standard loss- or distance-based methods despite being poorly separated from the OOD distribution using unsupervised learning. Because we further observe a low correlation with SOTA metrics, this urges us to propose a hybrid solution that alternates between noise detection using linear separation and a state-of-the-art (SOTA) small-loss approach. When combined with the SOTA algorithm PLS, we substantially improve SOTA results for real-world image classification in the presence of web noise github.com/PaulAlbert31/LSA

Summary

AI-Generated Summary

PDF44November 28, 2024