ChatPaper.aiChatPaper

DHPLT: grandes corpora diacrônicos multilingues e representações de palavras para modelagem de mudança semântica

DHPLT: large-scale multilingual diachronic corpora and word representations for semantic change modelling

February 12, 2026
Autores: Mariia Fedorova, Andrey Kutuzov, Khonzoda Umarova
cs.AI

Resumo

Neste artigo de recursos, apresentamos o DHPLT, uma coleção aberta de corpora diacrônicos em 41 línguas diversas. O DHPLT é baseado nos conjuntos de dados HPLT, obtidos por web crawling; utilizamos os carimbos de data/hora do web crawling como sinal aproximado do momento de criação do documento. A coleção abrange três períodos temporais: 2011-2015, 2020-2021 e 2024-presente (1 milhão de documentos por período temporal para cada língua). Fornecemos adicionalmente embeddings de tipos de palavras e de tokens pré-computados, bem como substituições lexicais para as nossas palavras-alvo escolhidas, deixando ao mesmo tempo aberta a possibilidade de outros investigadores proporem as suas próprias palavras-alvo utilizando os mesmos conjuntos de dados. O DHPLT visa colmatar a atual carência de corpora diacrônicos multilingues para a modelação de mudança semântica (para além de uma dúzia de línguas de alto recurso). Ele abre caminho para uma variedade de novas configurações experimentais nesta área. Todos os recursos descritos neste artigo estão disponíveis em https://data.hplt-project.org/three/diachronic/, organizados por língua.
English
In this resource paper, we present DHPLT, an open collection of diachronic corpora in 41 diverse languages. DHPLT is based on the web-crawled HPLT datasets; we use web crawl timestamps as the approximate signal of document creation time. The collection covers three time periods: 2011-2015, 2020-2021 and 2024-present (1 million documents per time period for each language). We additionally provide pre-computed word type and token embeddings and lexical substitutions for our chosen target words, while at the same time leaving it open for the other researchers to come up with their own target words using the same datasets. DHPLT aims at filling in the current lack of multilingual diachronic corpora for semantic change modelling (beyond a dozen of high-resource languages). It opens the way for a variety of new experimental setups in this field. All the resources described in this paper are available at https://data.hplt-project.org/three/diachronic/, sorted by language.
PDF12March 29, 2026