새로운 한 쌍의 GloVes
A New Pair of GloVes
July 24, 2025
저자: Riley Carlson, John Bauer, Christopher D. Manning
cs.AI
초록
본 보고서는 2024년 새롭게 개발된 영어 GloVe(Global Vectors for Word Representation) 모델을 문서화, 설명 및 평가합니다. 2014년에 구축된 원본 GloVe 모델은 널리 사용되어 유용성이 입증되었지만, 언어와 세계는 계속 진화하고 있으며, 우리는 최신 모델이 현재의 사용 환경에 더 적합할 것이라고 판단했습니다. 또한, 2014년 모델은 사용된 정확한 데이터 버전과 전처리 과정에 대해 충분히 문서화되지 않았으며, 이를 보완하기 위해 새로운 모델을 상세히 문서화했습니다. 우리는 Wikipedia, Gigaword, 그리고 Dolma의 일부를 사용하여 두 세트의 단어 임베딩을 학습했습니다. 어휘 비교, 직접 테스트, 그리고 NER(Named Entity Recognition) 작업을 통한 평가 결과, 2024년 벡터는 문화적 및 언어적으로 관련된 새로운 단어를 포함하고 있으며, 유사성 및 유추와 같은 구조적 작업에서 비슷한 성능을 보이며, 비서구권 뉴스 데이터와 같은 최신의 시간 의존적 NER 데이터셋에서 향상된 성능을 보여줍니다.
English
This report documents, describes, and evaluates new 2024 English GloVe
(Global Vectors for Word Representation) models. While the original GloVe
models built in 2014 have been widely used and found useful, languages and the
world continue to evolve and we thought that current usage could benefit from
updated models. Moreover, the 2014 models were not carefully documented as to
the exact data versions and preprocessing that were used, and we rectify this
by documenting these new models. We trained two sets of word embeddings using
Wikipedia, Gigaword, and a subset of Dolma. Evaluation through vocabulary
comparison, direct testing, and NER tasks shows that the 2024 vectors
incorporate new culturally and linguistically relevant words, perform
comparably on structural tasks like analogy and similarity, and demonstrate
improved performance on recent, temporally dependent NER datasets such as
non-Western newswire data.