ChatPaper.aiChatPaper

Una detección precisa no es todo lo que necesitas para combatir el ruido en las etiquetas en conjuntos de datos ruidosos en la web.

An accurate detection is not all you need to combat label noise in web-noisy datasets

July 8, 2024
Autores: Paul Albert, Jack Valmadre, Eric Arazo, Tarun Krishna, Noel E. O'Connor, Kevin McGuinness
cs.AI

Resumen

Entrenar un clasificador en datos obtenidos mediante rastreo web requiere algoritmos de aprendizaje que sean robustos a errores de anotación y ejemplos irrelevantes. Este artículo se basa en la reciente observación empírica de que aplicar aprendizaje contrastivo no supervisado a conjuntos de datos ruidosos obtenidos mediante rastreo web produce una representación de características en la que las muestras en distribución (ID) y fuera de distribución (OOD) son linealmente separables. Mostramos que la estimación directa del hiperplano separador puede ofrecer una detección precisa de las muestras OOD, y sin embargo, sorprendentemente, esta detección no se traduce en mejoras en la precisión de la clasificación. Profundizando en este fenómeno, descubrimos que la detección casi perfecta pasa por alto un tipo de ejemplos limpios que son valiosos para el aprendizaje supervisado. Estos ejemplos a menudo representan imágenes visualmente simples, que son relativamente fáciles de identificar como ejemplos limpios utilizando métodos estándar basados en pérdida o distancia a pesar de estar pobremente separados de la distribución OOD mediante el aprendizaje no supervisado. Dado que observamos además una baja correlación con las métricas de estado del arte (SOTA), esto nos lleva a proponer una solución híbrida que alterna entre la detección de ruido mediante separación lineal y un enfoque de baja pérdida de vanguardia (SOTA). Al combinarlo con el algoritmo SOTA PLS, mejoramos sustancialmente los resultados SOTA para la clasificación de imágenes del mundo real en presencia de ruido web en github.com/PaulAlbert31/LSA
English
Training a classifier on web-crawled data demands learning algorithms that are robust to annotation errors and irrelevant examples. This paper builds upon the recent empirical observation that applying unsupervised contrastive learning to noisy, web-crawled datasets yields a feature representation under which the in-distribution (ID) and out-of-distribution (OOD) samples are linearly separable. We show that direct estimation of the separating hyperplane can indeed offer an accurate detection of OOD samples, and yet, surprisingly, this detection does not translate into gains in classification accuracy. Digging deeper into this phenomenon, we discover that the near-perfect detection misses a type of clean examples that are valuable for supervised learning. These examples often represent visually simple images, which are relatively easy to identify as clean examples using standard loss- or distance-based methods despite being poorly separated from the OOD distribution using unsupervised learning. Because we further observe a low correlation with SOTA metrics, this urges us to propose a hybrid solution that alternates between noise detection using linear separation and a state-of-the-art (SOTA) small-loss approach. When combined with the SOTA algorithm PLS, we substantially improve SOTA results for real-world image classification in the presence of web noise github.com/PaulAlbert31/LSA

Summary

AI-Generated Summary

PDF44November 28, 2024