DLT-Corpus: Una Colección de Textos a Gran Escala para el Dominio de la Tecnología de Registro Distribuido

Resumen

Presentamos DLT-Corpus, la colección de textos específicos de dominio más grande hasta la fecha para la investigación de Tecnologías de Registro Distribuido (DLT): 2.980 millones de tokens procedentes de 22,12 millones de documentos que abarcan literatura científica (37.440 publicaciones), patentes de la Oficina de Patentes y Marcas de EE. UU. (USPTO) (49.023 registros) y redes sociales (22 millones de publicaciones). Los recursos existentes de Procesamiento del Lenguaje Natural (PLN) para DLT se centran principalmente en la predicción de precios de criptomonedas y los contratos inteligentes, dejando el lenguaje específico del dominio poco explorado a pesar de la capitalización de mercado de ~3 billones de dólares del sector y su rápida evolución tecnológica. Demostramos la utilidad de DLT-Corpus analizando los patrones de emergencia tecnológica y las correlaciones entre mercado e innovación. Los hallazgos revelan que las tecnologías se originan en la literatura científica antes de llegar a las patentes y las redes sociales, siguiendo los patrones tradicionales de transferencia tecnológica. Mientras que el sentimiento en redes sociales se mantiene abrumadoramente alcista incluso durante los "criptoinviernos", la actividad científica y de patentes crece independientemente de las fluctuaciones del mercado, siguiendo la expansión general del mercado en un círculo virtuoso donde la investigación precede y permite el crecimiento económico que financia una mayor innovación. Ponemos a disposición del público el DLT-Corpus completo; LedgerBERT, un modelo adaptado al dominio que logra una mejora del 23% sobre BERT-base en una tarea de Reconocimiento de Entidades Nombradas (NER) específica para DLT; y todas las herramientas y código asociados.

English

We introduce DLT-Corpus, the largest domain-specific text collection for Distributed Ledger Technology (DLT) research to date: 2.98 billion tokens from 22.12 million documents spanning scientific literature (37,440 publications), United States Patent and Trademark Office (USPTO) patents (49,023 filings), and social media (22 million posts). Existing Natural Language Processing (NLP) resources for DLT focus narrowly on cryptocurrencies price prediction and smart contracts, leaving domain-specific language under explored despite the sector's ~$3 trillion market capitalization and rapid technological evolution. We demonstrate DLT-Corpus' utility by analyzing technology emergence patterns and market-innovation correlations. Findings reveal that technologies originate in scientific literature before reaching patents and social media, following traditional technology transfer patterns. While social media sentiment remains overwhelmingly bullish even during crypto winters, scientific and patent activity grow independently of market fluctuations, tracking overall market expansion in a virtuous cycle where research precedes and enables economic growth that funds further innovation. We publicly release the full DLT-Corpus; LedgerBERT, a domain-adapted model achieving 23% improvement over BERT-base on a DLT-specific Named Entity Recognition (NER) task; and all associated tools and code.

DLT-Corpus: Una Colección de Textos a Gran Escala para el Dominio de la Tecnología de Registro Distribuido

DLT-Corpus: A Large-Scale Text Collection for the Distributed Ledger Technology Domain

Resumen

Support