Um Novo Par de GloVes
A New Pair of GloVes
July 24, 2025
Autores: Riley Carlson, John Bauer, Christopher D. Manning
cs.AI
Resumo
Este relatório documenta, descreve e avalia os novos modelos GloVe (Global Vectors for Word Representation) em inglês de 2024. Embora os modelos GloVe originais construídos em 2014 tenham sido amplamente utilizados e considerados úteis, as línguas e o mundo continuam a evoluir, e consideramos que o uso atual poderia se beneficiar de modelos atualizados. Além disso, os modelos de 2014 não foram cuidadosamente documentados em relação às versões exatas dos dados e ao pré-processamento utilizados, e corrigimos isso documentando esses novos modelos. Treinamos dois conjuntos de embeddings de palavras utilizando a Wikipedia, o Gigaword e um subconjunto do Dolma. A avaliação por meio de comparação de vocabulário, testes diretos e tarefas de Reconhecimento de Entidades Nomeadas (NER) mostra que os vetores de 2024 incorporam novas palavras cultural e linguisticamente relevantes, apresentam desempenho comparável em tarefas estruturais como analogia e similaridade, e demonstram melhoria no desempenho em conjuntos de dados NER recentes e temporalmente dependentes, como dados de notícias não ocidentais.
English
This report documents, describes, and evaluates new 2024 English GloVe
(Global Vectors for Word Representation) models. While the original GloVe
models built in 2014 have been widely used and found useful, languages and the
world continue to evolve and we thought that current usage could benefit from
updated models. Moreover, the 2014 models were not carefully documented as to
the exact data versions and preprocessing that were used, and we rectify this
by documenting these new models. We trained two sets of word embeddings using
Wikipedia, Gigaword, and a subset of Dolma. Evaluation through vocabulary
comparison, direct testing, and NER tasks shows that the 2024 vectors
incorporate new culturally and linguistically relevant words, perform
comparably on structural tasks like analogy and similarity, and demonstrate
improved performance on recent, temporally dependent NER datasets such as
non-Western newswire data.