Branqueamento Zipfiano

Resumo

O espaço de incorporação de palavras em modelos neurais é enviesado, e corrigir isso pode melhorar o desempenho da tarefa. Apontamos que a maioria das abordagens para modelar, corrigir e medir a simetria de um espaço de incorporação assume implicitamente que as frequências das palavras são uniformes; na realidade, as frequências das palavras seguem uma distribuição altamente não uniforme, conhecida como Lei de Zipf. Surpreendentemente, simplesmente realizar branqueamento PCA ponderado pela frequência empírica das palavras que segue a Lei de Zipf melhora significativamente o desempenho da tarefa, superando baselines estabelecidos. Do ponto de vista teórico, tanto nossa abordagem quanto os métodos existentes podem ser claramente categorizados: as representações de palavras são distribuídas de acordo com uma família exponencial com medidas de base uniformes ou zipfianas. Ao adotar a última abordagem, podemos naturalmente enfatizar palavras informativas de baixa frequência em termos de sua norma vetorial, o que se torna evidente a partir da perspectiva informacional-geométrica, e em termos das funções de perda para classificação desequilibrada. Além disso, nossa teoria corrobora que métodos populares de processamento de linguagem natural, como amostragem negativa de skip-gram, WhiteningBERT e modelos de linguagem sem cabeça, funcionam bem simplesmente porque suas incorporações de palavras codificam a frequência empírica das palavras no modelo probabilístico subjacente.

English

The word embedding space in neural models is skewed, and correcting this can improve task performance. We point out that most approaches for modeling, correcting, and measuring the symmetry of an embedding space implicitly assume that the word frequencies are uniform; in reality, word frequencies follow a highly non-uniform distribution, known as Zipf's law. Surprisingly, simply performing PCA whitening weighted by the empirical word frequency that follows Zipf's law significantly improves task performance, surpassing established baselines. From a theoretical perspective, both our approach and existing methods can be clearly categorized: word representations are distributed according to an exponential family with either uniform or Zipfian base measures. By adopting the latter approach, we can naturally emphasize informative low-frequency words in terms of their vector norm, which becomes evident from the information-geometric perspective, and in terms of the loss functions for imbalanced classification. Additionally, our theory corroborates that popular natural language processing methods, such as skip-gram negative sampling, WhiteningBERT, and headless language models, work well just because their word embeddings encode the empirical word frequency into the underlying probabilistic model.

Branqueamento Zipfiano

Zipfian Whitening

Resumo

Support