Verloren in der Übersetzung? Untersuchung des Wandels des grammatischen Geschlechts vom Lateinischen zum Okzitanischen
Lost in Translation? Exploring the Shift in Grammatical Gender from Latin to Occitan
May 26, 2026
Autoren: Ahan Chatterjee, Matthias Schöffel, Matthias Aßenmacher, Marinus Wiedner, Esteban Garces Arias
cs.AI
Zusammenfassung
Die diachrone Entwicklung vom Lateinischen zu den romanischen Sprachen umfasste eine Umstrukturierung des grammatischen Genussystems von einer dreiteiligen Konfiguration (Maskulinum, Femininum, Neutrum) zu einer zweiteiligen (Maskulinum, Femininum) in den meisten romanischen Sprachen. In dieser Arbeit stellen wir ein interpretierbares Deep-Learning-Framework vor, um dieses Phänomen sowohl auf lexikalischer als auch auf kontextueller Ebene zu untersuchen. Zunächst zeigen wir, dass herkömmliche Tokenisierungsstrategien für dieses ressourcenarme historische Umfeld nicht ausreichend robust sind und dass unser vorgeschlagener Tokenizer die Leistung gegenüber diesen Basislinien verbessert. Auf lexikalischer Ebene bewerten wir den Beitrag morphologischer Merkmale zur Genusvorhersage. Auf kontextueller Ebene quantifizieren wir die Beiträge verschiedener Wortartkategorien zur Vorhersage des grammatischen Geschlechts. Zusammen charakterisieren diese Analysen die Verteilung von Genusinformationen zwischen dem Lemma und seinem Satzkontext. Wir machen unsere Codebasis, Datensätze und Ergebnisse öffentlich unter https://github.com/ahan-2000/Lost-in-Translation-{https://github.com/ahan-2000/Lost-in-Translation-} verfügbar.
English
The diachronic evolution from Latin to the Romance languages involved a restructuring of the grammatical gender system from a tripartite configuration (masculine, feminine, neuter) to a bipartite one (masculine, feminine) in most Romance languages. In this work, we introduce an interpretable deep learning framework to investigate this phenomenon at both lexical and contextual levels. First, we show that conventional tokenization strategies are insufficiently robust for this low-resource historical setting, and that our proposed tokenizer improves performance over these baselines. At the lexical level, we evaluate the contribution of morphological features to gender prediction. At the contextual level, we quantify the contributions of different part-of-speech categories to grammatical gender prediction. Together, these analyses characterize the distribution of gender information between the lemma and its sentential context. We make our codebase, datasets, and results publicly available at https://github.com/ahan-2000/Lost-in-Translation-{https://github.com/ahan-2000/Lost-in-Translation-}.