No existe una solución universal: desarrollo de sistemas para la traducción al bashkir, kazajo, kirguís, tártaro y chuvasio utilizando datos sintéticos y originales
No One-Size-Fits-All: Building Systems For Translation to Bashkir, Kazakh, Kyrgyz, Tatar and Chuvash Using Synthetic And Original Data
February 4, 2026
Autores: Dmitry Karpov
cs.AI
Resumen
Investigamos la traducción automática para cinco pares de lenguas túrquicas: ruso-bashkir, ruso-kazajo, ruso-kirguís, inglés-tártaro, inglés-chuvasio. El ajuste fino de nllb-200-distilled-600M con LoRA en datos sintéticos logró un chrF++ de 49.71 para el kazajo y 46.94 para el bashkir. La técnica de prompting con DeepSeek-V3.2 utilizando ejemplos similares recuperados alcanzó un chrF++ de 39.47 para el chuvasio. Para el tártaro, los enfoques zero-shot o basados en recuperación lograron un chrF++ de 41.6, mientras que para el kirguís el enfoque zero-shot alcanzó 45.6. Publicamos el conjunto de datos y los pesos obtenidos.
English
We explore machine translation for five Turkic language pairs: Russian-Bashkir, Russian-Kazakh, Russian-Kyrgyz, English-Tatar, English-Chuvash. Fine-tuning nllb-200-distilled-600M with LoRA on synthetic data achieved chrF++ 49.71 for Kazakh and 46.94 for Bashkir. Prompting DeepSeek-V3.2 with retrieved similar examples achieved chrF++ 39.47 for Chuvash. For Tatar, zero-shot or retrieval-based approaches achieved chrF++ 41.6, while for Kyrgyz the zero-shot approach reached 45.6. We release the dataset and the obtained weights.