ChatPaper.aiChatPaper

DHPLT: Umfangreiche mehrsprachige diachrone Korpora und Wortrepräsentationen zur Modellierung semantischen Wandels

DHPLT: large-scale multilingual diachronic corpora and word representations for semantic change modelling

February 12, 2026
papers.authors: Mariia Fedorova, Andrey Kutuzov, Khonzoda Umarova
cs.AI

papers.abstract

In diesem Ressourcenpapier stellen wir DHPLT vor, eine offene Sammlung diachroner Korpora in 41 verschiedenen Sprachen. DHPLT basiert auf den webgecrawlten HPLT-Datensätzen; wir verwenden die Zeitstempel des Web-Crawlings als annäherndes Signal für das Erstellungsdatum der Dokumente. Die Sammlung umfasst drei Zeiträume: 2011-2015, 2020-2021 und 2024-heute (jeweils 1 Million Dokumente pro Zeitraum und Sprache. Zusätzlich bieten wir vorberechnete Worttyp- und Token-Einbettungen sowie lexikalische Substitutionen für unsere ausgewählten Zielwörter an, ermöglichen es anderen Forschern aber gleichzeitig, eigene Zielwörter auf Basis derselben Datensätze zu definieren. DHPLT zielt darauf ab, die derzeitige Lücke an mehrsprachigen diachronen Korpora für die Modellierung semantischen Wandels (jenseits eines Dutzends hochressourcenstarker Sprachen) zu schließen. Es eröffnet die Möglichkeit für eine Vielzahl neuer experimenteller Aufbauten auf diesem Gebiet. Alle in diesem Artikel beschriebenen Ressourcen sind unter https://data.hplt-project.org/three/diachronic/ nach Sprachen sortiert verfügbar.
English
In this resource paper, we present DHPLT, an open collection of diachronic corpora in 41 diverse languages. DHPLT is based on the web-crawled HPLT datasets; we use web crawl timestamps as the approximate signal of document creation time. The collection covers three time periods: 2011-2015, 2020-2021 and 2024-present (1 million documents per time period for each language). We additionally provide pre-computed word type and token embeddings and lexical substitutions for our chosen target words, while at the same time leaving it open for the other researchers to come up with their own target words using the same datasets. DHPLT aims at filling in the current lack of multilingual diachronic corpora for semantic change modelling (beyond a dozen of high-resource languages). It opens the way for a variety of new experimental setups in this field. All the resources described in this paper are available at https://data.hplt-project.org/three/diachronic/, sorted by language.
PDF12February 18, 2026