Aufbau von Grundlagen für die natürliche Sprachverarbeitung historischer Türkisch: Ressourcen und Modelle
Building Foundations for Natural Language Processing of Historical Turkish: Resources and Models
January 8, 2025
Autoren: Şaziye Betül Özateş, Tarık Emre Tıraş, Ece Elif Adak, Berat Doğan, Fatih Burak Karagöz, Efe Eren Genç, Esma F. Bilgin Taşdemir
cs.AI
Zusammenfassung
Dieses Papier stellt grundlegende Ressourcen und Modelle für die natürliche Sprachverarbeitung (NLP) des historischen Türkischen vor, einem Bereich, der in der Computerlinguistik bisher wenig erforscht wurde. Wir präsentieren den ersten Datensatz für benannte Entitäten (NER) namens HisTR und den ersten Universal Dependencies Treebank, OTA-BOUN, für eine historische Form der türkischen Sprache sowie auf diesen Datensätzen trainierte transformerbasierte Modelle für die Erkennung benannter Entitäten, die Analyse von Abhängigkeiten und die Zuordnung von Wortarten. Darüber hinaus stellen wir das Ottoman Text Corpus (OTC) vor, ein sauberes Korpus transliterierter historischer türkischer Texte, das eine breite Palette historischer Perioden abdeckt. Unsere experimentellen Ergebnisse zeigen signifikante Verbesserungen bei der computerbasierten Analyse des historischen Türkischen und erzielen vielversprechende Ergebnisse bei Aufgaben, die ein Verständnis historischer sprachlicher Strukturen erfordern. Sie heben auch bestehende Herausforderungen hervor, wie die Anpassung an den Bereich und sprachliche Variationen über verschiedene Zeiträume hinweg. Alle präsentierten Ressourcen und Modelle stehen unter https://huggingface.co/bucolin zur Verfügung, um als Benchmark für zukünftige Fortschritte in der NLP des historischen Türkischen zu dienen.
English
This paper introduces foundational resources and models for natural language
processing (NLP) of historical Turkish, a domain that has remained
underexplored in computational linguistics. We present the first named entity
recognition (NER) dataset, HisTR and the first Universal Dependencies treebank,
OTA-BOUN for a historical form of the Turkish language along with
transformer-based models trained using these datasets for named entity
recognition, dependency parsing, and part-of-speech tagging tasks.
Additionally, we introduce Ottoman Text Corpus (OTC), a clean corpus of
transliterated historical Turkish texts that spans a wide range of historical
periods. Our experimental results show significant improvements in the
computational analysis of historical Turkish, achieving promising results in
tasks that require understanding of historical linguistic structures. They also
highlight existing challenges, such as domain adaptation and language
variations across time periods. All of the presented resources and models are
made available at https://huggingface.co/bucolin to serve as a benchmark for
future progress in historical Turkish NLP.Summary
AI-Generated Summary