ChatPaper.aiChatPaper

DHPLT: крупномасштабные многоязычные диахронические корпуса и векторные представления слов для моделирования семантических изменений

DHPLT: large-scale multilingual diachronic corpora and word representations for semantic change modelling

February 12, 2026
Авторы: Mariia Fedorova, Andrey Kutuzov, Khonzoda Umarova
cs.AI

Аннотация

В данной ресурсной статье мы представляем DHPLT — открытую коллекцию диахронических корпусов на 41 языке. DHPLT основана на веб-корпусах HPLT; мы используем временные метки веб-краулинга в качестве приблизительного сигнала о времени создания документа. Коллекция охватывает три временных периода: 2011–2015, 2020–2021 и 2024 год по настоящее время (по 1 миллиону документов на каждый временной период для каждого языка). Дополнительно мы предоставляем предварительно вычисленные эмбеддинги типов слов и токенов, а также лексические замены для выбранных нами целевых слов, оставляя при этом возможность другим исследователям предлагать собственные целевые слова, используя те же наборы данных. DHPLT призван восполнить текущий недостаток многоязычных диахронических корпусов для моделирования семантических изменений (помимо дюжины высокоресурсных языков). Он открывает путь для разнообразных новых экспериментальных подходов в этой области. Все описанные в статье ресурсы доступны по адресу https://data.hplt-project.org/three/diachronic/, отсортированные по языкам.
English
In this resource paper, we present DHPLT, an open collection of diachronic corpora in 41 diverse languages. DHPLT is based on the web-crawled HPLT datasets; we use web crawl timestamps as the approximate signal of document creation time. The collection covers three time periods: 2011-2015, 2020-2021 and 2024-present (1 million documents per time period for each language). We additionally provide pre-computed word type and token embeddings and lexical substitutions for our chosen target words, while at the same time leaving it open for the other researchers to come up with their own target words using the same datasets. DHPLT aims at filling in the current lack of multilingual diachronic corpora for semantic change modelling (beyond a dozen of high-resource languages). It opens the way for a variety of new experimental setups in this field. All the resources described in this paper are available at https://data.hplt-project.org/three/diachronic/, sorted by language.
PDF12February 18, 2026