Un nuevo par de guantes GloVe
A New Pair of GloVes
July 24, 2025
Autores: Riley Carlson, John Bauer, Christopher D. Manning
cs.AI
Resumen
Este informe documenta, describe y evalúa los nuevos modelos GloVe (Global Vectors for Word Representation) en inglés de 2024. Si bien los modelos GloVe originales construidos en 2014 han sido ampliamente utilizados y considerados útiles, los idiomas y el mundo continúan evolucionando, y consideramos que el uso actual podría beneficiarse de modelos actualizados. Además, los modelos de 2014 no estaban cuidadosamente documentados en cuanto a las versiones exactas de los datos y el preprocesamiento utilizados, y rectificamos esto documentando estos nuevos modelos. Entrenamos dos conjuntos de embeddings de palabras utilizando Wikipedia, Gigaword y un subconjunto de Dolma. La evaluación mediante comparación de vocabulario, pruebas directas y tareas de reconocimiento de entidades nombradas (NER) muestra que los vectores de 2024 incorporan palabras nuevas cultural y lingüísticamente relevantes, tienen un rendimiento comparable en tareas estructurales como analogías y similitudes, y demuestran un mejor rendimiento en conjuntos de datos NER recientes y temporalmente dependientes, como datos de noticias no occidentales.
English
This report documents, describes, and evaluates new 2024 English GloVe
(Global Vectors for Word Representation) models. While the original GloVe
models built in 2014 have been widely used and found useful, languages and the
world continue to evolve and we thought that current usage could benefit from
updated models. Moreover, the 2014 models were not carefully documented as to
the exact data versions and preprocessing that were used, and we rectify this
by documenting these new models. We trained two sets of word embeddings using
Wikipedia, Gigaword, and a subset of Dolma. Evaluation through vocabulary
comparison, direct testing, and NER tasks shows that the 2024 vectors
incorporate new culturally and linguistically relevant words, perform
comparably on structural tasks like analogy and similarity, and demonstrate
improved performance on recent, temporally dependent NER datasets such as
non-Western newswire data.