Zipfianホワイトニング
Zipfian Whitening
November 1, 2024
著者: Sho Yokoi, Han Bao, Hiroto Kurita, Hidetoshi Shimodaira
cs.AI
要旨
ニューラルモデルにおける単語埋め込み空間は歪んでおり、これを修正することでタスクのパフォーマンスを向上させることができます。我々は、埋め込み空間の対称性をモデリング、修正、測定するためのほとんどのアプローチが、単語の頻度が一様であると暗黙的に仮定していることを指摘します。実際には、単語の頻度は非常に一様でない分布に従い、それがジップの法則として知られています。驚くべきことに、ジップの法則に従う経験的な単語頻度によって重み付けされたPCAホワイトニングを単純に行うことで、確立されたベースラインを超えるタスクのパフォーマンスが著しく向上します。理論的な観点から見ると、我々のアプローチと既存の方法の両方を明確に分類することができます。単語表現は、均一またはジップの基本測度を持つ指数ファミリーに従って分布しています。後者のアプローチを採用することで、情報幾何学的な観点から、ベクトルノルムに関して情報量の多い低頻度の単語を自然に強調することができ、また、不均衡な分類のための損失関数に関しても明らかになります。さらに、我々の理論は、スキップグラム負サンプリング、WhiteningBERT、ヘッドレス言語モデルなどの一般的な自然言語処理手法がうまく機能するのは、単語埋め込みが経験的な単語頻度を基にした確率モデルにエンコードされているためであることを裏付けています。
English
The word embedding space in neural models is skewed, and correcting this can
improve task performance. We point out that most approaches for modeling,
correcting, and measuring the symmetry of an embedding space implicitly assume
that the word frequencies are uniform; in reality, word frequencies follow a
highly non-uniform distribution, known as Zipf's law. Surprisingly, simply
performing PCA whitening weighted by the empirical word frequency that follows
Zipf's law significantly improves task performance, surpassing established
baselines. From a theoretical perspective, both our approach and existing
methods can be clearly categorized: word representations are distributed
according to an exponential family with either uniform or Zipfian base
measures. By adopting the latter approach, we can naturally emphasize
informative low-frequency words in terms of their vector norm, which becomes
evident from the information-geometric perspective, and in terms of the loss
functions for imbalanced classification. Additionally, our theory corroborates
that popular natural language processing methods, such as skip-gram negative
sampling, WhiteningBERT, and headless language models, work well just because
their word embeddings encode the empirical word frequency into the underlying
probabilistic model.Summary
AI-Generated Summary