Метод вейвлет-преобразования
Zipfian Whitening
November 1, 2024
Авторы: Sho Yokoi, Han Bao, Hiroto Kurita, Hidetoshi Shimodaira
cs.AI
Аннотация
Пространство векторных представлений слов в нейронных моделях искажено, и исправление этого может улучшить производительность задачи. Мы отмечаем, что большинство подходов к моделированию, коррекции и измерению симметрии пространства векторных представлений предполагают, что частоты слов равномерны; в действительности частоты слов следуют высоко неравномерному распределению, известному как закон Ципфа. Удивительно, что простое выполнение PCA-белизны, взвешенной эмпирической частотой слов, следующей закону Ципфа, значительно улучшает производительность задачи, превосходя установленные базовые уровни. С теоретической точки зрения как наш подход, так и существующие методы могут быть четко классифицированы: представления слов распределены в соответствии с экспоненциальным семейством с равномерными или ципфовскими базовыми мерами. Приняв последний подход, мы естественным образом можем подчеркнуть информативные слова с низкой частотой в терминах их векторной нормы, что становится очевидным с информационно-геометрической точки зрения, а также в терминах функций потерь для несбалансированной классификации. Кроме того, наша теория подтверждает, что популярные методы обработки естественного языка, такие как отрицательная выборка skip-gram, WhiteningBERT и модели языка без головы, работают хорошо просто потому, что их векторные представления слов кодируют эмпирическую частоту слов в основную вероятностную модель.
English
The word embedding space in neural models is skewed, and correcting this can
improve task performance. We point out that most approaches for modeling,
correcting, and measuring the symmetry of an embedding space implicitly assume
that the word frequencies are uniform; in reality, word frequencies follow a
highly non-uniform distribution, known as Zipf's law. Surprisingly, simply
performing PCA whitening weighted by the empirical word frequency that follows
Zipf's law significantly improves task performance, surpassing established
baselines. From a theoretical perspective, both our approach and existing
methods can be clearly categorized: word representations are distributed
according to an exponential family with either uniform or Zipfian base
measures. By adopting the latter approach, we can naturally emphasize
informative low-frequency words in terms of their vector norm, which becomes
evident from the information-geometric perspective, and in terms of the loss
functions for imbalanced classification. Additionally, our theory corroborates
that popular natural language processing methods, such as skip-gram negative
sampling, WhiteningBERT, and headless language models, work well just because
their word embeddings encode the empirical word frequency into the underlying
probabilistic model.Summary
AI-Generated Summary