¿Perdido en la traducción? Explorando el cambio del género gramatical del latín al occitano

Resumen

La evolución diacrónica del latín a las lenguas romances implicó una reestructuración del sistema de género gramatical, pasando de una configuración tripartita (masculino, femenino, neutro) a una bipartita (masculino, femenino) en la mayoría de las lenguas romances. En este trabajo, presentamos un marco de aprendizaje profundo interpretable para investigar este fenómeno tanto a nivel léxico como contextual. Primero, demostramos que las estrategias convencionales de tokenización no son suficientemente robustas para este contexto histórico de bajos recursos, y que nuestro tokenizador propuesto mejora el rendimiento en comparación con estas líneas base. A nivel léxico, evaluamos la contribución de las características morfológicas a la predicción del género. A nivel contextual, cuantificamos las contribuciones de diferentes categorías gramaticales a la predicción del género gramatical. En conjunto, estos análisis caracterizan la distribución de la información de género entre el lema y su contexto oracional. Ponemos a disposición del público nuestro código, conjuntos de datos y resultados en https://github.com/ahan-2000/Lost-in-Translation-.

English

The diachronic evolution from Latin to the Romance languages involved a restructuring of the grammatical gender system from a tripartite configuration (masculine, feminine, neuter) to a bipartite one (masculine, feminine) in most Romance languages. In this work, we introduce an interpretable deep learning framework to investigate this phenomenon at both lexical and contextual levels. First, we show that conventional tokenization strategies are insufficiently robust for this low-resource historical setting, and that our proposed tokenizer improves performance over these baselines. At the lexical level, we evaluate the contribution of morphological features to gender prediction. At the contextual level, we quantify the contributions of different part-of-speech categories to grammatical gender prediction. Together, these analyses characterize the distribution of gender information between the lemma and its sentential context. We make our codebase, datasets, and results publicly available at https://github.com/ahan-2000/Lost-in-Translation-{https://github.com/ahan-2000/Lost-in-Translation-}.