Sentando las bases para el Procesamiento del Lenguaje Natural del Turco Histórico: Recursos y Modelos

Resumen

Este documento presenta recursos y modelos fundamentales para el procesamiento del lenguaje natural (PLN) del turco histórico, un ámbito que ha sido poco explorado en lingüística computacional. Introducimos el primer conjunto de datos de reconocimiento de entidades nombradas (NER) para turco histórico, HisTR, y el primer banco de árboles de dependencias de Universal Dependencies, OTA-BOUN, para una forma histórica del idioma turco, junto con modelos basados en transformadores entrenados utilizando estos conjuntos de datos para tareas de reconocimiento de entidades nombradas, análisis de dependencias y etiquetado de partes del discurso. Además, presentamos el Corpus de Textos Otomanos (OTC), un corpus limpio de textos turcos históricos transliterados que abarca una amplia gama de períodos históricos. Nuestros resultados experimentales muestran mejoras significativas en el análisis computacional del turco histórico, logrando resultados prometedores en tareas que requieren comprensión de estructuras lingüísticas históricas. También resaltan desafíos existentes, como la adaptación de dominio y las variaciones del lenguaje a lo largo de los períodos de tiempo. Todos los recursos y modelos presentados están disponibles en https://huggingface.co/bucolin para servir como referencia para futuros avances en el PLN del turco histórico.

English

This paper introduces foundational resources and models for natural language processing (NLP) of historical Turkish, a domain that has remained underexplored in computational linguistics. We present the first named entity recognition (NER) dataset, HisTR and the first Universal Dependencies treebank, OTA-BOUN for a historical form of the Turkish language along with transformer-based models trained using these datasets for named entity recognition, dependency parsing, and part-of-speech tagging tasks. Additionally, we introduce Ottoman Text Corpus (OTC), a clean corpus of transliterated historical Turkish texts that spans a wide range of historical periods. Our experimental results show significant improvements in the computational analysis of historical Turkish, achieving promising results in tasks that require understanding of historical linguistic structures. They also highlight existing challenges, such as domain adaptation and language variations across time periods. All of the presented resources and models are made available at https://huggingface.co/bucolin to serve as a benchmark for future progress in historical Turkish NLP.