ChatPaper.aiChatPaper

DHPLT:意味変化モデリングのための大規模多言語通時コーパスと単語表現

DHPLT: large-scale multilingual diachronic corpora and word representations for semantic change modelling

February 12, 2026
著者: Mariia Fedorova, Andrey Kutuzov, Khonzoda Umarova
cs.AI

要旨

本リソース論文では、41の多様な言語における通時的コーパスのオープンコレクションであるDHPLTを提案する。DHPLTはウェブクロールされたHPLTデータセットに基づいており、文書作成時期のおおよその指標としてウェブクロールのタイムスタンプを利用している。本コレクションは3つの時代(2011-2015年、2020-2021年、2024年-現在)をカバーし、各言語・各時代につき100万文書を収録する。さらに、事前計算された単語タイプ・トークン埋め込みと、選定した対象語に対する語彙的代替候補を提供する一方で、他の研究者が同一データセットを用いて独自の対象語を設定することも可能としている。DHPLTは、(十数程度の高資源言語を超えた)意味変化モデリングのための多言語通時コーパスの現状における不足を埋めることを目的とする。これにより、当該分野における多様な新たな実験設定への道を開く。本論文で説明する全リソースは、言語別に整理されたhttps://data.hplt-project.org/three/diachronic/ で公開されている。
English
In this resource paper, we present DHPLT, an open collection of diachronic corpora in 41 diverse languages. DHPLT is based on the web-crawled HPLT datasets; we use web crawl timestamps as the approximate signal of document creation time. The collection covers three time periods: 2011-2015, 2020-2021 and 2024-present (1 million documents per time period for each language). We additionally provide pre-computed word type and token embeddings and lexical substitutions for our chosen target words, while at the same time leaving it open for the other researchers to come up with their own target words using the same datasets. DHPLT aims at filling in the current lack of multilingual diachronic corpora for semantic change modelling (beyond a dozen of high-resource languages). It opens the way for a variety of new experimental setups in this field. All the resources described in this paper are available at https://data.hplt-project.org/three/diachronic/, sorted by language.
PDF12February 18, 2026