Un Nuovo Paio di Guanti GloVe
A New Pair of GloVes
July 24, 2025
Autori: Riley Carlson, John Bauer, Christopher D. Manning
cs.AI
Abstract
Questo rapporto documenta, descrive e valuta i nuovi modelli GloVe (Global Vectors for Word Representation) in inglese del 2024. Sebbene i modelli GloVe originali costruiti nel 2014 siano stati ampiamente utilizzati e ritenuti utili, le lingue e il mondo continuano a evolversi e abbiamo ritenuto che l'uso attuale potesse trarre vantaggio da modelli aggiornati. Inoltre, i modelli del 2014 non erano accuratamente documentati riguardo alle versioni esatte dei dati e al preprocessing utilizzati, e abbiamo corretto questo aspetto documentando questi nuovi modelli. Abbiamo addestrato due serie di word embedding utilizzando Wikipedia, Gigaword e un sottoinsieme di Dolma. La valutazione attraverso il confronto del vocabolario, test diretti e task di riconoscimento di entità nominate (NER) mostra che i vettori del 2024 incorporano nuove parole culturalmente e linguisticamente rilevanti, offrono prestazioni comparabili su task strutturali come analogie e similarità, e dimostrano un miglioramento delle prestazioni su dataset NER recenti e temporalmente dipendenti, come i dati di agenzia non occidentali.
English
This report documents, describes, and evaluates new 2024 English GloVe
(Global Vectors for Word Representation) models. While the original GloVe
models built in 2014 have been widely used and found useful, languages and the
world continue to evolve and we thought that current usage could benefit from
updated models. Moreover, the 2014 models were not carefully documented as to
the exact data versions and preprocessing that were used, and we rectify this
by documenting these new models. We trained two sets of word embeddings using
Wikipedia, Gigaword, and a subset of Dolma. Evaluation through vocabulary
comparison, direct testing, and NER tasks shows that the 2024 vectors
incorporate new culturally and linguistically relevant words, perform
comparably on structural tasks like analogy and similarity, and demonstrate
improved performance on recent, temporally dependent NER datasets such as
non-Western newswire data.