ChatPaper.aiChatPaper

DHPLT: grootschalige meertalige diachrone corpora en woordrepresentaties voor modellering van semantische verandering

DHPLT: large-scale multilingual diachronic corpora and word representations for semantic change modelling

February 12, 2026
Auteurs: Mariia Fedorova, Andrey Kutuzov, Khonzoda Umarova
cs.AI

Samenvatting

In dit onderzoekspaper presenteren wij DHPLT, een open verzameling diachrone corpora in 41 uiteenlopende talen. DHPLT is gebaseerd op de gecrawlde HPLT-datasets uit het web; wij gebruiken de tijdstempels van de webcrawls als benaderend signaal voor het aanmaaktijdstip van documenten. De verzameling beslaat drie tijdsperioden: 2011-2015, 2020-2021 en 2024-heden (1 miljoen documenten per tijdsperiode voor elke taal). Daarnaast bieden wij vooraf berekende woordtype- en token-embeddingen en lexicale substituties voor onze gekozen doelwoorden, terwijl wij het andere onderzoekers tevens mogelijk maken om met dezelfde datasets hun eigen doelwoorden te definiëren. DHPLT beoogt de huidige leemte in meertalige diachrone corpora voor semantische veranderingsmodellering (voorbij een dozijn hoogresource-talen) op te vullen. Het opent de weg voor uiteenlopende nieuwe experimentele opzetten op dit gebied. Alle in dit artikel beschreven bronnen zijn beschikbaar op https://data.hplt-project.org/three/diachronic/, gesorteerd op taal.
English
In this resource paper, we present DHPLT, an open collection of diachronic corpora in 41 diverse languages. DHPLT is based on the web-crawled HPLT datasets; we use web crawl timestamps as the approximate signal of document creation time. The collection covers three time periods: 2011-2015, 2020-2021 and 2024-present (1 million documents per time period for each language). We additionally provide pre-computed word type and token embeddings and lexical substitutions for our chosen target words, while at the same time leaving it open for the other researchers to come up with their own target words using the same datasets. DHPLT aims at filling in the current lack of multilingual diachronic corpora for semantic change modelling (beyond a dozen of high-resource languages). It opens the way for a variety of new experimental setups in this field. All the resources described in this paper are available at https://data.hplt-project.org/three/diachronic/, sorted by language.
PDF12March 29, 2026