Потеряно при переводе? Изучение изменения грамматического рода от латыни к окситанскому языку.

Аннотация

Диахроническая эволюция от латыни к романским языкам включала перестройку системы грамматического рода от трехчастной конфигурации (мужской, женский, средний) к двухчастной (мужской, женский) в большинстве романских языков. В данной работе мы представляем интерпретируемую структуру глубокого обучения для исследования этого явления как на лексическом, так и на контекстуальном уровнях. Во-первых, мы показываем, что традиционные стратегии токенизации недостаточно надежны для этого низкоресурсного исторического контекста, и что предложенный нами токенизатор повышает производительность по сравнению с этими базовыми моделями. На лексическом уровне мы оцениваем вклад морфологических признаков в предсказание рода. На контекстуальном уровне мы количественно определяем вклад различных частеречных категорий в предсказание грамматического рода. В совокупности эти анализы характеризуют распределение информации о роде между леммой и ее контекстом в предложении. Мы делаем нашу кодовую базу, наборы данных и результаты общедоступными по адресу https://github.com/ahan-2000/Lost-in-Translation-.

English

The diachronic evolution from Latin to the Romance languages involved a restructuring of the grammatical gender system from a tripartite configuration (masculine, feminine, neuter) to a bipartite one (masculine, feminine) in most Romance languages. In this work, we introduce an interpretable deep learning framework to investigate this phenomenon at both lexical and contextual levels. First, we show that conventional tokenization strategies are insufficiently robust for this low-resource historical setting, and that our proposed tokenizer improves performance over these baselines. At the lexical level, we evaluate the contribution of morphological features to gender prediction. At the contextual level, we quantify the contributions of different part-of-speech categories to grammatical gender prediction. Together, these analyses characterize the distribution of gender information between the lemma and its sentential context. We make our codebase, datasets, and results publicly available at https://github.com/ahan-2000/Lost-in-Translation-{https://github.com/ahan-2000/Lost-in-Translation-}.