Blanqueamiento Zipfiano
Zipfian Whitening
November 1, 2024
Autores: Sho Yokoi, Han Bao, Hiroto Kurita, Hidetoshi Shimodaira
cs.AI
Resumen
El espacio de incrustación de palabras en modelos neuronales está sesgado, y corregir esto puede mejorar el rendimiento de la tarea. Señalamos que la mayoría de los enfoques para modelar, corregir y medir la simetría de un espacio de incrustación asumen implícitamente que las frecuencias de las palabras son uniformes; en realidad, las frecuencias de las palabras siguen una distribución altamente no uniforme, conocida como la ley de Zipf. Sorprendentemente, simplemente realizar un blanqueo de PCA ponderado por la frecuencia empírica de las palabras que sigue la ley de Zipf mejora significativamente el rendimiento de la tarea, superando los baselines establecidos. Desde una perspectiva teórica, tanto nuestro enfoque como los métodos existentes pueden clasificarse claramente: las representaciones de palabras se distribuyen de acuerdo con una familia exponencial con medidas base uniformes o zipfianas. Al adoptar el último enfoque, podemos enfatizar naturalmente las palabras informativas de baja frecuencia en términos de su norma vectorial, lo que se hace evidente desde la perspectiva de la geometría de la información, y en términos de las funciones de pérdida para la clasificación desequilibrada. Además, nuestra teoría corrobora que los métodos populares de procesamiento del lenguaje natural, como el muestreo negativo de skip-gram, WhiteningBERT y modelos de lenguaje sin cabeza, funcionan bien simplemente porque sus incrustaciones de palabras codifican la frecuencia empírica de las palabras en el modelo probabilístico subyacente.
English
The word embedding space in neural models is skewed, and correcting this can
improve task performance. We point out that most approaches for modeling,
correcting, and measuring the symmetry of an embedding space implicitly assume
that the word frequencies are uniform; in reality, word frequencies follow a
highly non-uniform distribution, known as Zipf's law. Surprisingly, simply
performing PCA whitening weighted by the empirical word frequency that follows
Zipf's law significantly improves task performance, surpassing established
baselines. From a theoretical perspective, both our approach and existing
methods can be clearly categorized: word representations are distributed
according to an exponential family with either uniform or Zipfian base
measures. By adopting the latter approach, we can naturally emphasize
informative low-frequency words in terms of their vector norm, which becomes
evident from the information-geometric perspective, and in terms of the loss
functions for imbalanced classification. Additionally, our theory corroborates
that popular natural language processing methods, such as skip-gram negative
sampling, WhiteningBERT, and headless language models, work well just because
their word embeddings encode the empirical word frequency into the underlying
probabilistic model.Summary
AI-Generated Summary