Uma detecção precisa não é tudo o que você precisa para combater o ruído de rótulo em conjuntos de dados ruidosos da web.
An accurate detection is not all you need to combat label noise in web-noisy datasets
July 8, 2024
Autores: Paul Albert, Jack Valmadre, Eric Arazo, Tarun Krishna, Noel E. O'Connor, Kevin McGuinness
cs.AI
Resumo
Treinar um classificador em dados coletados na web exige algoritmos de aprendizado que sejam robustos a erros de anotação e exemplos irrelevantes. Este artigo baseia-se na recente observação empírica de que a aplicação de aprendizado contrastivo não supervisionado a conjuntos de dados ruidosos coletados na web resulta em uma representação de características na qual as amostras em-distribuição (ID) e fora de distribuição (OOD) são linearmente separáveis. Mostramos que a estimativa direta do hiperplano separador pode de fato oferecer uma detecção precisa de amostras OOD, e, no entanto, surpreendentemente, essa detecção não se traduz em ganhos na precisão da classificação. Aprofundando-nos nesse fenômeno, descobrimos que a detecção quase perfeita deixa passar um tipo de exemplos limpos que são valiosos para o aprendizado supervisionado. Esses exemplos frequentemente representam imagens visualmente simples, que são relativamente fáceis de identificar como exemplos limpos usando métodos padrão baseados em perda ou distância, apesar de estarem mal separados da distribuição OOD usando aprendizado não supervisionado. Como observamos ainda uma baixa correlação com métricas de estado-da-arte (SOTA), isso nos leva a propor uma solução híbrida que alterna entre detecção de ruído usando separação linear e uma abordagem de baixa perda de estado-da-arte (SOTA). Quando combinado com o algoritmo SOTA PLS, melhoramos substancialmente os resultados de SOTA para classificação de imagens do mundo real na presença de ruído da web em github.com/PaulAlbert31/LSA
English
Training a classifier on web-crawled data demands learning algorithms that
are robust to annotation errors and irrelevant examples. This paper builds upon
the recent empirical observation that applying unsupervised contrastive
learning to noisy, web-crawled datasets yields a feature representation under
which the in-distribution (ID) and out-of-distribution (OOD) samples are
linearly separable. We show that direct estimation of the separating hyperplane
can indeed offer an accurate detection of OOD samples, and yet, surprisingly,
this detection does not translate into gains in classification accuracy.
Digging deeper into this phenomenon, we discover that the near-perfect
detection misses a type of clean examples that are valuable for supervised
learning. These examples often represent visually simple images, which are
relatively easy to identify as clean examples using standard loss- or
distance-based methods despite being poorly separated from the OOD distribution
using unsupervised learning. Because we further observe a low correlation with
SOTA metrics, this urges us to propose a hybrid solution that alternates
between noise detection using linear separation and a state-of-the-art (SOTA)
small-loss approach. When combined with the SOTA algorithm PLS, we
substantially improve SOTA results for real-world image classification in the
presence of web noise github.com/PaulAlbert31/LSA