Ein neues Paar GloVes
A New Pair of GloVes
July 24, 2025
papers.authors: Riley Carlson, John Bauer, Christopher D. Manning
cs.AI
papers.abstract
Dieser Bericht dokumentiert, beschreibt und bewertet neue GloVe-Modelle (Global Vectors for Word Representation) für das Englische aus dem Jahr 2024. Während die ursprünglichen GloVe-Modelle aus dem Jahr 2014 weit verbreitet und nützlich waren, entwickeln sich Sprachen und die Welt weiter, und wir dachten, dass die aktuelle Nutzung von aktualisierten Modellen profitieren könnte. Darüber hinaus waren die Modelle von 2014 nicht sorgfältig in Bezug auf die genauen Datenversionen und die verwendete Vorverarbeitung dokumentiert, und wir korrigieren dies, indem wir diese neuen Modelle dokumentieren. Wir haben zwei Sätze von Wortvektoren unter Verwendung von Wikipedia, Gigaword und einer Teilmenge von Dolma trainiert. Die Bewertung durch Vokabularvergleiche, direkte Tests und NER-Aufgaben (Named Entity Recognition) zeigt, dass die Vektoren von 2024 neue kulturell und sprachlich relevante Wörter integrieren, bei strukturellen Aufgaben wie Analogien und Ähnlichkeiten vergleichbar abschneiden und eine verbesserte Leistung bei aktuellen, zeitabhängigen NER-Datensätzen wie nicht-westlichen Nachrichtendaten zeigen.
English
This report documents, describes, and evaluates new 2024 English GloVe
(Global Vectors for Word Representation) models. While the original GloVe
models built in 2014 have been widely used and found useful, languages and the
world continue to evolve and we thought that current usage could benefit from
updated models. Moreover, the 2014 models were not carefully documented as to
the exact data versions and preprocessing that were used, and we rectify this
by documenting these new models. We trained two sets of word embeddings using
Wikipedia, Gigaword, and a subset of Dolma. Evaluation through vocabulary
comparison, direct testing, and NER tasks shows that the 2024 vectors
incorporate new culturally and linguistically relevant words, perform
comparably on structural tasks like analogy and similarity, and demonstrate
improved performance on recent, temporally dependent NER datasets such as
non-Western newswire data.