DHPLT: corpus diacrónicos multilingües a gran escala y representaciones léxicas para el modelado del cambio semántico
DHPLT: large-scale multilingual diachronic corpora and word representations for semantic change modelling
February 12, 2026
Autores: Mariia Fedorova, Andrey Kutuzov, Khonzoda Umarova
cs.AI
Resumen
En este artículo de recursos, presentamos DHPLT, una colección abierta de corpus diacrónicos en 41 idiomas diversos. DHPLT se basa en los conjuntos de datos HPLT obtenidos mediante rastreo web; utilizamos las marcas de tiempo del rastreo como señal aproximada de la fecha de creación del documento. La colección abarca tres períodos temporales: 2011-2015, 2020-2021 y 2024-actualidad (un millón de documentos por período para cada idioma). Adicionalmente, proporcionamos incrustaciones léxicas (tipos y tokens) y sustituciones léxicas precomputadas para nuestras palabras objetivo seleccionadas, dejando al mismo tiempo abierta la posibilidad de que otros investigadores propongan sus propias palabras objetivo utilizando los mismos conjuntos de datos. DHPLT tiene como objetivo suplir la actual carencia de corpus diacrónicos multilingües para el modelado del cambio semántico (más allá de una docena de idiomas de altos recursos). Abre el camino para una variedad de nuevas configuraciones experimentales en este campo. Todos los recursos descritos en este artículo están disponibles en https://data.hplt-project.org/three/diachronic/, organizados por idioma.
English
In this resource paper, we present DHPLT, an open collection of diachronic corpora in 41 diverse languages. DHPLT is based on the web-crawled HPLT datasets; we use web crawl timestamps as the approximate signal of document creation time. The collection covers three time periods: 2011-2015, 2020-2021 and 2024-present (1 million documents per time period for each language). We additionally provide pre-computed word type and token embeddings and lexical substitutions for our chosen target words, while at the same time leaving it open for the other researchers to come up with their own target words using the same datasets. DHPLT aims at filling in the current lack of multilingual diachronic corpora for semantic change modelling (beyond a dozen of high-resource languages). It opens the way for a variety of new experimental setups in this field. All the resources described in this paper are available at https://data.hplt-project.org/three/diachronic/, sorted by language.