Новая пара GloVes
A New Pair of GloVes
July 24, 2025
Авторы: Riley Carlson, John Bauer, Christopher D. Manning
cs.AI
Аннотация
В данном отчете представлены, описаны и оценены новые модели GloVe (Global Vectors for Word Representation) для английского языка, созданные в 2024 году. Хотя оригинальные модели GloVe, разработанные в 2014 году, получили широкое распространение и доказали свою полезность, языки и мир продолжают развиваться, и мы посчитали, что современное использование может выиграть от обновленных моделей. Кроме того, модели 2014 года не были тщательно задокументированы в отношении точных версий данных и предварительной обработки, и мы устраняем этот недостаток, подробно описывая новые модели. Мы обучили два набора векторных представлений слов, используя данные из Wikipedia, Gigaword и подмножества Dolma. Оценка через сравнение словарного состава, прямое тестирование и задачи распознавания именованных сущностей (NER) показала, что векторы 2024 года включают новые культурно и лингвистически значимые слова, демонстрируют сопоставимые результаты на структурных задачах, таких как аналогии и сходство, а также улучшенную производительность на современных временнозависимых наборах данных NER, таких как новостные данные из не-западных источников.
English
This report documents, describes, and evaluates new 2024 English GloVe
(Global Vectors for Word Representation) models. While the original GloVe
models built in 2014 have been widely used and found useful, languages and the
world continue to evolve and we thought that current usage could benefit from
updated models. Moreover, the 2014 models were not carefully documented as to
the exact data versions and preprocessing that were used, and we rectify this
by documenting these new models. We trained two sets of word embeddings using
Wikipedia, Gigaword, and a subset of Dolma. Evaluation through vocabulary
comparison, direct testing, and NER tasks shows that the 2024 vectors
incorporate new culturally and linguistically relevant words, perform
comparably on structural tasks like analogy and similarity, and demonstrate
improved performance on recent, temporally dependent NER datasets such as
non-Western newswire data.