DHPLT : vastes corpus multilingues diachroniques et représentations lexicales pour la modélisation du changement sémantique
DHPLT: large-scale multilingual diachronic corpora and word representations for semantic change modelling
February 12, 2026
papers.authors: Mariia Fedorova, Andrey Kutuzov, Khonzoda Umarova
cs.AI
papers.abstract
Dans cet article de ressource, nous présentons DHPLT, une collection ouverte de corpus diachroniques dans 41 langues diverses. DHPLT est basé sur les ensembles de données HPLT issus du web ; nous utilisons les horodatages des collectes web comme signal approximatif de la date de création des documents. La collection couvre trois périodes : 2011-2015, 2020-2021 et 2024 à aujourd'hui (un million de documents par période pour chaque langue). Nous fournissons également des plongements lexicaux (types et tokens) précalculés et des substitutions lexicales pour nos mots cibles choisis, tout en laissant la possibilité à d'autres chercheurs de proposer leurs propres mots cibles en utilisant les mêmes jeux de données. DHPLT vise à combler le manque actuel de corpus diachroniques multilingues pour la modélisation du changement sémantique (au-delà d'une douzaine de langues riches en ressources). Il ouvre la voie à une variété de nouveaux dispositifs expérimentaux dans ce domaine. Toutes les ressources décrites dans cet article sont disponibles à l'adresse https://data.hplt-project.org/three/diachronic/, triées par langue.
English
In this resource paper, we present DHPLT, an open collection of diachronic corpora in 41 diverse languages. DHPLT is based on the web-crawled HPLT datasets; we use web crawl timestamps as the approximate signal of document creation time. The collection covers three time periods: 2011-2015, 2020-2021 and 2024-present (1 million documents per time period for each language). We additionally provide pre-computed word type and token embeddings and lexical substitutions for our chosen target words, while at the same time leaving it open for the other researchers to come up with their own target words using the same datasets. DHPLT aims at filling in the current lack of multilingual diachronic corpora for semantic change modelling (beyond a dozen of high-resource languages). It opens the way for a variety of new experimental setups in this field. All the resources described in this paper are available at https://data.hplt-project.org/three/diachronic/, sorted by language.