DLT-Corpus : Une vaste collection de textes pour le domaine de la technologie des registres distribués

Résumé

Nous présentons DLT-Corpus, la plus vaste collection de textes spécialisés à ce jour pour la recherche sur les technologies de registre distribué (DLT) : 2,98 milliards de tokens provenant de 22,12 millions de documents couvrant la littérature scientifique (37 440 publications), les brevets de l'Office américain des brevets et des marques (USPTO) (49 023 dépôts) et les médias sociaux (22 millions de publications). Les ressources existantes en traitement du langage naturel (TLN) pour les DLT se concentrent étroitement sur la prédiction du prix des cryptomonnaies et les contrats intelligents, laissant le langage spécifique au domaine sous-exploré malgré une capitalisation boursière d'environ 3 000 milliards de dollars et une évolution technologique rapide. Nous démontrons l'utilité de DLT-Corpus en analysant les schémas d'émergence technologique et les corrélations entre marché et innovation. Les résultats révèlent que les technologies prennent naissance dans la littérature scientifique avant d'atteindre les brevets et les médias sociaux, suivant les schémas traditionnels de transfert de technologie. Alors que le sentiment sur les médias sociaux reste massivement optimiste même pendant les « hivers cryptographiques », l'activité scientifique et brevets croît indépendamment des fluctuations du marché, suivant l'expansion globale du marché dans un cercle vertueux où la recherche précède et permet la croissance économique qui finance l'innovation future. Nous mettons publiquement à disposition l'intégralité de DLT-Corpus ; LedgerBERT, un modèle adapté au domaine qui améliore de 23 % les performances de BERT-base sur une tâche de reconnaissance d'entités nommées (NER) spécifique aux DLT ; ainsi que tous les outils et codes associés.

English

We introduce DLT-Corpus, the largest domain-specific text collection for Distributed Ledger Technology (DLT) research to date: 2.98 billion tokens from 22.12 million documents spanning scientific literature (37,440 publications), United States Patent and Trademark Office (USPTO) patents (49,023 filings), and social media (22 million posts). Existing Natural Language Processing (NLP) resources for DLT focus narrowly on cryptocurrencies price prediction and smart contracts, leaving domain-specific language under explored despite the sector's ~$3 trillion market capitalization and rapid technological evolution. We demonstrate DLT-Corpus' utility by analyzing technology emergence patterns and market-innovation correlations. Findings reveal that technologies originate in scientific literature before reaching patents and social media, following traditional technology transfer patterns. While social media sentiment remains overwhelmingly bullish even during crypto winters, scientific and patent activity grow independently of market fluctuations, tracking overall market expansion in a virtuous cycle where research precedes and enables economic growth that funds further innovation. We publicly release the full DLT-Corpus; LedgerBERT, a domain-adapted model achieving 23% improvement over BERT-base on a DLT-specific Named Entity Recognition (NER) task; and all associated tools and code.

DLT-Corpus : Une vaste collection de textes pour le domaine de la technologie des registres distribués

DLT-Corpus: A Large-Scale Text Collection for the Distributed Ledger Technology Domain

Résumé

Support