웹 기반 노이즈 데이터셋에서 레이블 노이즈를 해결하기 위해서는 정확한 탐지만으로는 충분하지 않습니다.
An accurate detection is not all you need to combat label noise in web-noisy datasets
July 8, 2024
저자: Paul Albert, Jack Valmadre, Eric Arazo, Tarun Krishna, Noel E. O'Connor, Kevin McGuinness
cs.AI
초록
웹 크롤링 데이터에 대해 분류기를 학습시키기 위해서는 주석 오류와 관련 없는 예제에 강건한 학습 알고리즘이 필요합니다. 본 논문은 최근의 실험적 관찰을 기반으로, 노이즈가 있는 웹 크롤링 데이터셋에 비지도 대조 학습(unsupervised contrastive learning)을 적용하면, 분포 내(ID)와 분포 외(OOD) 샘플이 선형적으로 분리 가능한 특징 표현이 얻어진다는 점을 활용합니다. 우리는 분리 초평면(separating hyperplane)을 직접 추정하는 것이 OOD 샘플을 정확하게 탐지할 수 있음을 보여주지만, 놀랍게도 이 탐지가 분류 정확도 향상으로 이어지지 않음을 확인했습니다. 이 현상을 더 깊이 파고들어, 우리는 거의 완벽한 탐지가 지도 학습에 유용한 일종의 깨끗한 예제를 놓치고 있음을 발견했습니다. 이러한 예제는 종종 시각적으로 단순한 이미지를 나타내며, 비지도 학습을 사용하여 OOD 분포와 잘 분리되지 않더라도 표준 손실 기반 또는 거리 기반 방법을 사용하여 깨끗한 예제로 식별하기가 상대적으로 쉽습니다. 또한 SOTA(State-of-the-Art) 지표와의 상관관계가 낮다는 점을 관찰함에 따라, 우리는 선형 분리를 통한 노이즈 탐지와 SOTA 소손실(small-loss) 접근법을 번갈아 사용하는 하이브리드 솔루션을 제안합니다. 이를 SOTA 알고리즘인 PLS와 결합함으로써, 웹 노이즈가 존재하는 실제 이미지 분류에서 SOTA 결과를 크게 개선했습니다. github.com/PaulAlbert31/LSA
English
Training a classifier on web-crawled data demands learning algorithms that
are robust to annotation errors and irrelevant examples. This paper builds upon
the recent empirical observation that applying unsupervised contrastive
learning to noisy, web-crawled datasets yields a feature representation under
which the in-distribution (ID) and out-of-distribution (OOD) samples are
linearly separable. We show that direct estimation of the separating hyperplane
can indeed offer an accurate detection of OOD samples, and yet, surprisingly,
this detection does not translate into gains in classification accuracy.
Digging deeper into this phenomenon, we discover that the near-perfect
detection misses a type of clean examples that are valuable for supervised
learning. These examples often represent visually simple images, which are
relatively easy to identify as clean examples using standard loss- or
distance-based methods despite being poorly separated from the OOD distribution
using unsupervised learning. Because we further observe a low correlation with
SOTA metrics, this urges us to propose a hybrid solution that alternates
between noise detection using linear separation and a state-of-the-art (SOTA)
small-loss approach. When combined with the SOTA algorithm PLS, we
substantially improve SOTA results for real-world image classification in the
presence of web noise github.com/PaulAlbert31/LSASummary
AI-Generated Summary