ウェブノイズデータセットにおけるラベルノイズに対処するためには、正確な検出だけでは不十分である。
An accurate detection is not all you need to combat label noise in web-noisy datasets
July 8, 2024
著者: Paul Albert, Jack Valmadre, Eric Arazo, Tarun Krishna, Noel E. O'Connor, Kevin McGuinness
cs.AI
要旨
ウェブクロールデータを用いて分類器を訓練するには、アノテーションエラーや無関係な例に対してロバストな学習アルゴリズムが必要です。本論文は、最近の実証的観察に基づいており、ノイズの多いウェブクロールデータセットに教師なしコントラスティブラーニングを適用すると、分布内(ID)サンプルと分布外(OOD)サンプルが線形分離可能な特徴表現が得られることを示しています。我々は、分離超平面を直接推定することで、OODサンプルの検出が確かに正確に行えることを示しますが、驚くべきことに、この検出が分類精度の向上にはつながらないことを明らかにします。この現象をさらに掘り下げると、ほぼ完璧な検出が、教師あり学習にとって貴重なクリーンな例の一種を見逃していることがわかります。これらの例は、視覚的に単純な画像を表すことが多く、教師なし学習ではOOD分布からうまく分離されていないにもかかわらず、標準的な損失ベースまたは距離ベースの方法を用いてクリーンな例として比較的容易に識別できます。さらに、SOTA(State-of-the-Art)メトリクスとの相関が低いことを観察したため、線形分離を用いたノイズ検出とSOTAの小損失アプローチを交互に行うハイブリッドソリューションを提案します。SOTAアルゴリズムであるPLSと組み合わせることで、ウェブノイズが存在する実世界の画像分類において、SOTAの結果を大幅に改善します。github.com/PaulAlbert31/LSA
English
Training a classifier on web-crawled data demands learning algorithms that
are robust to annotation errors and irrelevant examples. This paper builds upon
the recent empirical observation that applying unsupervised contrastive
learning to noisy, web-crawled datasets yields a feature representation under
which the in-distribution (ID) and out-of-distribution (OOD) samples are
linearly separable. We show that direct estimation of the separating hyperplane
can indeed offer an accurate detection of OOD samples, and yet, surprisingly,
this detection does not translate into gains in classification accuracy.
Digging deeper into this phenomenon, we discover that the near-perfect
detection misses a type of clean examples that are valuable for supervised
learning. These examples often represent visually simple images, which are
relatively easy to identify as clean examples using standard loss- or
distance-based methods despite being poorly separated from the OOD distribution
using unsupervised learning. Because we further observe a low correlation with
SOTA metrics, this urges us to propose a hybrid solution that alternates
between noise detection using linear separation and a state-of-the-art (SOTA)
small-loss approach. When combined with the SOTA algorithm PLS, we
substantially improve SOTA results for real-world image classification in the
presence of web noise github.com/PaulAlbert31/LSASummary
AI-Generated Summary