Een Nieuw Paar GloVes
A New Pair of GloVes
July 24, 2025
Auteurs: Riley Carlson, John Bauer, Christopher D. Manning
cs.AI
Samenvatting
Dit rapport documenteert, beschrijft en evalueert nieuwe GloVe-modellen (Global Vectors for Word Representation) voor het Engels uit 2024. Hoewel de oorspronkelijke GloVe-modellen uit 2014 veelvuldig zijn gebruikt en nuttig zijn bevonden, blijven talen en de wereld zich ontwikkelen, en we dachten dat het huidige gebruik baat zou kunnen hebben bij geactualiseerde modellen. Bovendien waren de modellen uit 2014 niet zorgvuldig gedocumenteerd wat betreft de exacte dataversies en preprocessingsstappen die werden gebruikt, en dit herstellen we door deze nieuwe modellen te documenteren. We hebben twee sets woordembeddingen getraind met behulp van Wikipedia, Gigaword en een subset van Dolma. Evaluatie door middel van vocabulairevergelijking, directe tests en NER-taken (Named Entity Recognition) toont aan dat de 2024-vectoren nieuwe cultureel en taalkundig relevante woorden incorporeren, vergelijkbaar presteren op structurele taken zoals analogieën en gelijkenissen, en verbeterde prestaties laten zien op recente, tijdgebonden NER-datasets zoals niet-Westerse nieuwsgegevens.
English
This report documents, describes, and evaluates new 2024 English GloVe
(Global Vectors for Word Representation) models. While the original GloVe
models built in 2014 have been widely used and found useful, languages and the
world continue to evolve and we thought that current usage could benefit from
updated models. Moreover, the 2014 models were not carefully documented as to
the exact data versions and preprocessing that were used, and we rectify this
by documenting these new models. We trained two sets of word embeddings using
Wikipedia, Gigaword, and a subset of Dolma. Evaluation through vocabulary
comparison, direct testing, and NER tasks shows that the 2024 vectors
incorporate new culturally and linguistically relevant words, perform
comparably on structural tasks like analogy and similarity, and demonstrate
improved performance on recent, temporally dependent NER datasets such as
non-Western newswire data.