DLT-Corpus: Een grootschalige tekstverzameling voor het gedistribueerd grootboektechnologie-domein
DLT-Corpus: A Large-Scale Text Collection for the Distributed Ledger Technology Domain
February 25, 2026
Auteurs: Walter Hernandez Cruz, Peter Devine, Nikhil Vadgama, Paolo Tasca, Jiahua Xu
cs.AI
Samenvatting
Wij introduceren DLT-Corpus, de grootste domeinspecifieke tekstverzameling voor onderzoek naar Distributed Ledger Technology (DLT) tot op heden: 2,98 miljard tokens uit 22,12 miljoen documenten, bestaande uit wetenschappelijke literatuur (37.440 publicaties), patenten van het United States Patent and Trademark Office (USPTO) (49.023 aanvragen) en sociale media (22 miljoen posts). Bestaande Natural Language Processing (NLP)-bronnen voor DLT richten zich nauw op prijsvoorspellingen voor cryptocurrencies en smart contracts, waardoor de domeinspecifieke taal onderbelicht blijft, ondanks de marktkapitalisatie van circa $3 biljoen en de snelle technologische evolutie van de sector.
Wij demonstreren de bruikbaarheid van DLT-Corpus door patronen van technologische opkomst en correlaties tussen markt en innovatie te analyseren. De bevindingen onthullen dat technologieën hun oorsprong vinden in wetenschappelijke literatuur voordat zij patenten en sociale media bereiken, in lijn met traditionele technologieoverdrachtpatronen. Hoewel het sentiment op sociale media overweldigend positief blijft, zelfs tijdens cryptowinters, groeien wetenschappelijke en patentactiviteiten onafhankelijk van marktschommelingen en volgen zij de algemene marktexpansie in een vicieuze cirkel waarin onderzoek voorafgaat aan en economische groei mogelijk maakt, wat verdere innovatie financiert.
Wij maken het volledige DLT-Corpus openbaar toegankelijk; LedgerBERT, een domeinaangepast model dat een verbetering van 23% behaalt ten opzichte van BERT-base op een DLT-specifieke Named Entity Recognition (NER)-taak; en alle bijbehorende tools en code.
English
We introduce DLT-Corpus, the largest domain-specific text collection for Distributed Ledger Technology (DLT) research to date: 2.98 billion tokens from 22.12 million documents spanning scientific literature (37,440 publications), United States Patent and Trademark Office (USPTO) patents (49,023 filings), and social media (22 million posts). Existing Natural Language Processing (NLP) resources for DLT focus narrowly on cryptocurrencies price prediction and smart contracts, leaving domain-specific language under explored despite the sector's ~$3 trillion market capitalization and rapid technological evolution.
We demonstrate DLT-Corpus' utility by analyzing technology emergence patterns and market-innovation correlations. Findings reveal that technologies originate in scientific literature before reaching patents and social media, following traditional technology transfer patterns. While social media sentiment remains overwhelmingly bullish even during crypto winters, scientific and patent activity grow independently of market fluctuations, tracking overall market expansion in a virtuous cycle where research precedes and enables economic growth that funds further innovation.
We publicly release the full DLT-Corpus; LedgerBERT, a domain-adapted model achieving 23% improvement over BERT-base on a DLT-specific Named Entity Recognition (NER) task; and all associated tools and code.