Branqueamento Zipfiano
Zipfian Whitening
November 1, 2024
Autores: Sho Yokoi, Han Bao, Hiroto Kurita, Hidetoshi Shimodaira
cs.AI
Resumo
O espaço de incorporação de palavras em modelos neurais é enviesado, e corrigir isso pode melhorar o desempenho da tarefa. Apontamos que a maioria das abordagens para modelar, corrigir e medir a simetria de um espaço de incorporação assume implicitamente que as frequências das palavras são uniformes; na realidade, as frequências das palavras seguem uma distribuição altamente não uniforme, conhecida como Lei de Zipf. Surpreendentemente, simplesmente realizar branqueamento PCA ponderado pela frequência empírica das palavras que segue a Lei de Zipf melhora significativamente o desempenho da tarefa, superando baselines estabelecidos. Do ponto de vista teórico, tanto nossa abordagem quanto os métodos existentes podem ser claramente categorizados: as representações de palavras são distribuídas de acordo com uma família exponencial com medidas de base uniformes ou zipfianas. Ao adotar a última abordagem, podemos naturalmente enfatizar palavras informativas de baixa frequência em termos de sua norma vetorial, o que se torna evidente a partir da perspectiva informacional-geométrica, e em termos das funções de perda para classificação desequilibrada. Além disso, nossa teoria corrobora que métodos populares de processamento de linguagem natural, como amostragem negativa de skip-gram, WhiteningBERT e modelos de linguagem sem cabeça, funcionam bem simplesmente porque suas incorporações de palavras codificam a frequência empírica das palavras no modelo probabilístico subjacente.
English
The word embedding space in neural models is skewed, and correcting this can
improve task performance. We point out that most approaches for modeling,
correcting, and measuring the symmetry of an embedding space implicitly assume
that the word frequencies are uniform; in reality, word frequencies follow a
highly non-uniform distribution, known as Zipf's law. Surprisingly, simply
performing PCA whitening weighted by the empirical word frequency that follows
Zipf's law significantly improves task performance, surpassing established
baselines. From a theoretical perspective, both our approach and existing
methods can be clearly categorized: word representations are distributed
according to an exponential family with either uniform or Zipfian base
measures. By adopting the latter approach, we can naturally emphasize
informative low-frequency words in terms of their vector norm, which becomes
evident from the information-geometric perspective, and in terms of the loss
functions for imbalanced classification. Additionally, our theory corroborates
that popular natural language processing methods, such as skip-gram negative
sampling, WhiteningBERT, and headless language models, work well just because
their word embeddings encode the empirical word frequency into the underlying
probabilistic model.Summary
AI-Generated Summary