Sentando las bases para el Procesamiento del Lenguaje Natural del Turco Histórico: Recursos y Modelos
Building Foundations for Natural Language Processing of Historical Turkish: Resources and Models
January 8, 2025
Autores: Şaziye Betül Özateş, Tarık Emre Tıraş, Ece Elif Adak, Berat Doğan, Fatih Burak Karagöz, Efe Eren Genç, Esma F. Bilgin Taşdemir
cs.AI
Resumen
Este documento presenta recursos y modelos fundamentales para el procesamiento del lenguaje natural (PLN) del turco histórico, un ámbito que ha sido poco explorado en lingüística computacional. Introducimos el primer conjunto de datos de reconocimiento de entidades nombradas (NER) para turco histórico, HisTR, y el primer banco de árboles de dependencias de Universal Dependencies, OTA-BOUN, para una forma histórica del idioma turco, junto con modelos basados en transformadores entrenados utilizando estos conjuntos de datos para tareas de reconocimiento de entidades nombradas, análisis de dependencias y etiquetado de partes del discurso.
Además, presentamos el Corpus de Textos Otomanos (OTC), un corpus limpio de textos turcos históricos transliterados que abarca una amplia gama de períodos históricos. Nuestros resultados experimentales muestran mejoras significativas en el análisis computacional del turco histórico, logrando resultados prometedores en tareas que requieren comprensión de estructuras lingüísticas históricas. También resaltan desafíos existentes, como la adaptación de dominio y las variaciones del lenguaje a lo largo de los períodos de tiempo. Todos los recursos y modelos presentados están disponibles en https://huggingface.co/bucolin para servir como referencia para futuros avances en el PLN del turco histórico.
English
This paper introduces foundational resources and models for natural language
processing (NLP) of historical Turkish, a domain that has remained
underexplored in computational linguistics. We present the first named entity
recognition (NER) dataset, HisTR and the first Universal Dependencies treebank,
OTA-BOUN for a historical form of the Turkish language along with
transformer-based models trained using these datasets for named entity
recognition, dependency parsing, and part-of-speech tagging tasks.
Additionally, we introduce Ottoman Text Corpus (OTC), a clean corpus of
transliterated historical Turkish texts that spans a wide range of historical
periods. Our experimental results show significant improvements in the
computational analysis of historical Turkish, achieving promising results in
tasks that require understanding of historical linguistic structures. They also
highlight existing challenges, such as domain adaptation and language
variations across time periods. All of the presented resources and models are
made available at https://huggingface.co/bucolin to serve as a benchmark for
future progress in historical Turkish NLP.Summary
AI-Generated Summary