ChatPaper.aiChatPaper

DHPLT: corpora diacronici multilingue su larga scala e rappresentazioni lessicali per la modellizzazione del cambiamento semantico

DHPLT: large-scale multilingual diachronic corpora and word representations for semantic change modelling

February 12, 2026
Autori: Mariia Fedorova, Andrey Kutuzov, Khonzoda Umarova
cs.AI

Abstract

In questo articolo di risorsa, presentiamo DHPLT, una collezione aperta di corpora diacronici in 41 lingue diverse. DHPLT si basa sui dataset HPLT ottenuti tramite web crawling; utilizziamo i timestamp del web crawling come segnale approssimativo del tempo di creazione del documento. La collezione copre tre periodi temporali: 2011-2015, 2020-2021 e 2024-oggi (un milione di documenti per periodo temporale per ciascuna lingua). Forniamo inoltre embedding pre-calcolati per tipo di parola e token e sostituzioni lessicali per le nostre parole target selezionate, lasciando al contempo aperta la possibilità per altri ricercatori di individuare le proprie parole target utilizzando gli stessi dataset. DHPLT mira a colmare l'attuale carenza di corpora diacronici multilingue per la modellizzazione del cambiamento semantico (al di là di una dozzina di lingue ad alte risorse). Esso apre la strada a una varietà di nuovi setup sperimentali in questo campo. Tutte le risorse descritte in questo articolo sono disponibili all'indirizzo https://data.hplt-project.org/three/diachronic/, ordinate per lingua.
English
In this resource paper, we present DHPLT, an open collection of diachronic corpora in 41 diverse languages. DHPLT is based on the web-crawled HPLT datasets; we use web crawl timestamps as the approximate signal of document creation time. The collection covers three time periods: 2011-2015, 2020-2021 and 2024-present (1 million documents per time period for each language). We additionally provide pre-computed word type and token embeddings and lexical substitutions for our chosen target words, while at the same time leaving it open for the other researchers to come up with their own target words using the same datasets. DHPLT aims at filling in the current lack of multilingual diachronic corpora for semantic change modelling (beyond a dozen of high-resource languages). It opens the way for a variety of new experimental setups in this field. All the resources described in this paper are available at https://data.hplt-project.org/three/diachronic/, sorted by language.
PDF12March 29, 2026