Une nouvelle paire de gants GloVe
A New Pair of GloVes
July 24, 2025
papers.authors: Riley Carlson, John Bauer, Christopher D. Manning
cs.AI
papers.abstract
Ce rapport documente, décrit et évalue les nouveaux modèles GloVe (Global Vectors for Word Representation) anglais de 2024. Bien que les modèles GloVe originaux construits en 2014 aient été largement utilisés et jugés utiles, les langues et le monde continuent d'évoluer, et nous avons estimé que l'usage actuel pourrait bénéficier de modèles mis à jour. De plus, les modèles de 2014 n'étaient pas soigneusement documentés concernant les versions exactes des données et le prétraitement utilisés, et nous rectifions cela en documentant ces nouveaux modèles. Nous avons entraîné deux ensembles de plongements lexicaux en utilisant Wikipédia, Gigaword et un sous-ensemble de Dolma. L'évaluation par comparaison de vocabulaire, tests directs et tâches de reconnaissance d'entités nommées (NER) montre que les vecteurs de 2024 intègrent de nouveaux mots pertinents sur le plan culturel et linguistique, offrent des performances comparables sur des tâches structurelles comme les analogies et les similarités, et démontrent une amélioration des performances sur des ensembles de données NER récents et dépendants du temps, tels que les données de presse non occidentales.
English
This report documents, describes, and evaluates new 2024 English GloVe
(Global Vectors for Word Representation) models. While the original GloVe
models built in 2014 have been widely used and found useful, languages and the
world continue to evolve and we thought that current usage could benefit from
updated models. Moreover, the 2014 models were not carefully documented as to
the exact data versions and preprocessing that were used, and we rectify this
by documenting these new models. We trained two sets of word embeddings using
Wikipedia, Gigaword, and a subset of Dolma. Evaluation through vocabulary
comparison, direct testing, and NER tasks shows that the 2024 vectors
incorporate new culturally and linguistically relevant words, perform
comparably on structural tasks like analogy and similarity, and demonstrate
improved performance on recent, temporally dependent NER datasets such as
non-Western newswire data.