Una rilevazione accurata non è tutto ciò che serve per contrastare il rumore delle etichette nei dataset rumorosi provenienti dal web.
An accurate detection is not all you need to combat label noise in web-noisy datasets
July 8, 2024
Autori: Paul Albert, Jack Valmadre, Eric Arazo, Tarun Krishna, Noel E. O'Connor, Kevin McGuinness
cs.AI
Abstract
L'addestramento di un classificatore su dati raccolti dal web richiede algoritmi di apprendimento robusti agli errori di annotazione e agli esempi irrilevanti. Questo articolo si basa sulla recente osservazione empirica che l'applicazione dell'apprendimento contrastivo non supervisionato a dataset rumorosi e raccolti dal web produce una rappresentazione delle caratteristiche in cui i campioni in-distribuzione (ID) e out-of-distribution (OOD) sono linearmente separabili. Dimostriamo che la stima diretta dell'iperpiano separatore può effettivamente offrire un rilevamento accurato dei campioni OOD, eppure, sorprendentemente, questo rilevamento non si traduce in miglioramenti nell'accuratezza della classificazione. Approfondendo questo fenomeno, scopriamo che il rilevamento quasi perfetto trascura un tipo di esempi puliti che sono preziosi per l'apprendimento supervisionato. Questi esempi rappresentano spesso immagini visivamente semplici, che sono relativamente facili da identificare come esempi puliti utilizzando metodi standard basati su perdita o distanza, nonostante siano scarsamente separati dalla distribuzione OOD utilizzando l'apprendimento non supervisionato. Poiché osserviamo inoltre una bassa correlazione con le metriche SOTA, questo ci spinge a proporre una soluzione ibrida che alterna il rilevamento del rumore utilizzando la separazione lineare e un approccio small-loss all'avanguardia (SOTA). Quando combinato con l'algoritmo SOTA PLS, miglioriamo sostanzialmente i risultati SOTA per la classificazione di immagini real-world in presenza di rumore web github.com/PaulAlbert31/LSA.
English
Training a classifier on web-crawled data demands learning algorithms that
are robust to annotation errors and irrelevant examples. This paper builds upon
the recent empirical observation that applying unsupervised contrastive
learning to noisy, web-crawled datasets yields a feature representation under
which the in-distribution (ID) and out-of-distribution (OOD) samples are
linearly separable. We show that direct estimation of the separating hyperplane
can indeed offer an accurate detection of OOD samples, and yet, surprisingly,
this detection does not translate into gains in classification accuracy.
Digging deeper into this phenomenon, we discover that the near-perfect
detection misses a type of clean examples that are valuable for supervised
learning. These examples often represent visually simple images, which are
relatively easy to identify as clean examples using standard loss- or
distance-based methods despite being poorly separated from the OOD distribution
using unsupervised learning. Because we further observe a low correlation with
SOTA metrics, this urges us to propose a hybrid solution that alternates
between noise detection using linear separation and a state-of-the-art (SOTA)
small-loss approach. When combined with the SOTA algorithm PLS, we
substantially improve SOTA results for real-world image classification in the
presence of web noise github.com/PaulAlbert31/LSA