DLT-Corpus: Una Vasta Raccolta Testuale per il Dominio della Tecnologia dei Registri Distribuiti

Abstract

Presentiamo DLT-Corpus, la più ampia raccolta di testi specialistici per la ricerca sulla Tecnologia dei Registri Distribuiti (DLT) finora realizzata: 2,98 miliardi di token provenienti da 22,12 milioni di documenti che spaziano dalla letteratura scientifica (37.440 pubblicazioni), ai brevetti dell'Ufficio Brevetti e Marchi degli Stati Uniti (USPTO) (49.023 depositi), fino ai social media (22 milioni di post). Le risorse esistenti di Elaborazione del Linguaggio Naturale (NLP) per la DLT si concentrano in modo ristretto sulla previsione del prezzo delle criptovalute e sugli smart contract, lasciando inesplorato il linguaggio di dominio specifico nonostante la capitalizzazione di mercato del settore di circa 3.000 miliardi di dollari e la sua rapida evoluzione tecnologica. Dimostriamo l'utilità di DLT-Corpus analizzando i modelli di emergenza tecnologica e le correlazioni tra mercato e innovazione. I risultati rivelano che le tecnologie originano nella letteratura scientifica prima di raggiungere i brevetti e i social media, seguendo i tradizionali modelli di trasferimento tecnologico. Sebbene il sentiment dei social media rimanga prevalentemente rialzista anche durante i cosiddetti "inverni crittografici", l'attività scientifica e brevettuale cresce indipendentemente dalle fluttuazioni del mercato, ricalcando l'espansione complessiva del mercato in un circolo virtuoso in cui la ricerca precede e abilita la crescita economica che finanzia ulteriore innovazione. Rilasciamo pubblicamente l'intero DLT-Corpus; LedgerBERT, un modello adattato al dominio che registra un miglioramento del 23% rispetto a BERT-base in un'attività di Riconoscimento di Entità Nome (NER) specifica per la DLT; e tutti gli strumenti e il codice associati.

English

We introduce DLT-Corpus, the largest domain-specific text collection for Distributed Ledger Technology (DLT) research to date: 2.98 billion tokens from 22.12 million documents spanning scientific literature (37,440 publications), United States Patent and Trademark Office (USPTO) patents (49,023 filings), and social media (22 million posts). Existing Natural Language Processing (NLP) resources for DLT focus narrowly on cryptocurrencies price prediction and smart contracts, leaving domain-specific language under explored despite the sector's ~$3 trillion market capitalization and rapid technological evolution. We demonstrate DLT-Corpus' utility by analyzing technology emergence patterns and market-innovation correlations. Findings reveal that technologies originate in scientific literature before reaching patents and social media, following traditional technology transfer patterns. While social media sentiment remains overwhelmingly bullish even during crypto winters, scientific and patent activity grow independently of market fluctuations, tracking overall market expansion in a virtuous cycle where research precedes and enables economic growth that funds further innovation. We publicly release the full DLT-Corpus; LedgerBERT, a domain-adapted model achieving 23% improvement over BERT-base on a DLT-specific Named Entity Recognition (NER) task; and all associated tools and code.

DLT-Corpus: Una Vasta Raccolta Testuale per il Dominio della Tecnologia dei Registri Distribuiti

DLT-Corpus: A Large-Scale Text Collection for the Distributed Ledger Technology Domain

Abstract

Support