ChatPaper.aiChatPaper

Zipfianホワイトニング

Zipfian Whitening

November 1, 2024
著者: Sho Yokoi, Han Bao, Hiroto Kurita, Hidetoshi Shimodaira
cs.AI

要旨

ニューラルモデルにおける単語埋め込み空間は歪んでおり、これを修正することでタスクのパフォーマンスを向上させることができます。我々は、埋め込み空間の対称性をモデリング、修正、測定するためのほとんどのアプローチが、単語の頻度が一様であると暗黙的に仮定していることを指摘します。実際には、単語の頻度は非常に一様でない分布に従い、それがジップの法則として知られています。驚くべきことに、ジップの法則に従う経験的な単語頻度によって重み付けされたPCAホワイトニングを単純に行うことで、確立されたベースラインを超えるタスクのパフォーマンスが著しく向上します。理論的な観点から見ると、我々のアプローチと既存の方法の両方を明確に分類することができます。単語表現は、均一またはジップの基本測度を持つ指数ファミリーに従って分布しています。後者のアプローチを採用することで、情報幾何学的な観点から、ベクトルノルムに関して情報量の多い低頻度の単語を自然に強調することができ、また、不均衡な分類のための損失関数に関しても明らかになります。さらに、我々の理論は、スキップグラム負サンプリング、WhiteningBERT、ヘッドレス言語モデルなどの一般的な自然言語処理手法がうまく機能するのは、単語埋め込みが経験的な単語頻度を基にした確率モデルにエンコードされているためであることを裏付けています。
English
The word embedding space in neural models is skewed, and correcting this can improve task performance. We point out that most approaches for modeling, correcting, and measuring the symmetry of an embedding space implicitly assume that the word frequencies are uniform; in reality, word frequencies follow a highly non-uniform distribution, known as Zipf's law. Surprisingly, simply performing PCA whitening weighted by the empirical word frequency that follows Zipf's law significantly improves task performance, surpassing established baselines. From a theoretical perspective, both our approach and existing methods can be clearly categorized: word representations are distributed according to an exponential family with either uniform or Zipfian base measures. By adopting the latter approach, we can naturally emphasize informative low-frequency words in terms of their vector norm, which becomes evident from the information-geometric perspective, and in terms of the loss functions for imbalanced classification. Additionally, our theory corroborates that popular natural language processing methods, such as skip-gram negative sampling, WhiteningBERT, and headless language models, work well just because their word embeddings encode the empirical word frequency into the underlying probabilistic model.

Summary

AI-Generated Summary

PDF92November 13, 2024