DHPLT: 의미 변화 모델링을 위한 대규모 다국어 통시적 코퍼스 및 단어 표현
DHPLT: large-scale multilingual diachronic corpora and word representations for semantic change modelling
February 12, 2026
저자: Mariia Fedorova, Andrey Kutuzov, Khonzoda Umarova
cs.AI
초록
본 리소스 논문에서는 41개 다양한 언어로 구성된 통시적 코퍼스 오픈 컬렉션인 DHPLT를 소개한다. DHPLT는 웹 크롤링 방식의 HPLT 데이터셋을 기반으로 하며, 웹 크롤링 타임스탬프를 문서 생성 시점의 근사 신호로 활용한다. 본 컬렉션은 2011-2015년, 2020-2021년, 2024년-현재의 세 시기를 아우르며(각 언어별 시기당 100만 개 문서), 선정된 대상 단어에 대한 사전 계산된 단어 유형/토큰 임베딩 및 어휘 대체 항목을 추가로 제공한다. 동시에 다른 연구자들이 동일 데이터셋을 활용해 자체 대상 단어를 도출할 수 있는 개방성을 유지한다. DHPLT는 (고자원 언어 수십 개를 넘어선) 의미 변화 모델링을 위한 다국어 통시적 코퍼스의 현재 부재를 메우는 것을 목표로 하며, 해당 분야의 다양한 새로운 실험 설정을 위한 길을 연다. 본 논문에서 설명하는 모든 리소스는 언어별로 정렬되어 https://data.hplt-project.org/three/diachronic/에서 이용 가능하다.
English
In this resource paper, we present DHPLT, an open collection of diachronic corpora in 41 diverse languages. DHPLT is based on the web-crawled HPLT datasets; we use web crawl timestamps as the approximate signal of document creation time. The collection covers three time periods: 2011-2015, 2020-2021 and 2024-present (1 million documents per time period for each language). We additionally provide pre-computed word type and token embeddings and lexical substitutions for our chosen target words, while at the same time leaving it open for the other researchers to come up with their own target words using the same datasets. DHPLT aims at filling in the current lack of multilingual diachronic corpora for semantic change modelling (beyond a dozen of high-resource languages). It opens the way for a variety of new experimental setups in this field. All the resources described in this paper are available at https://data.hplt-project.org/three/diachronic/, sorted by language.