ChatPaper.aiChatPaper

Geen universele oplossing: het bouwen van systemen voor vertaling naar het Basjkiers, Kazachs, Kirgizisch, Tataars en Tsjoevasjisch met behulp van synthetische en originele data

No One-Size-Fits-All: Building Systems For Translation to Bashkir, Kazakh, Kyrgyz, Tatar and Chuvash Using Synthetic And Original Data

February 4, 2026
Auteurs: Dmitry Karpov
cs.AI

Samenvatting

Wij onderzoeken machinaal vertalen voor vijf Turkse taalparen: Russisch-Basjkiers, Russisch-Kazachs, Russisch-Kirgizisch, Engels-Tataars, Engels-Tsjoevasjisch. Het fine-tunen van nllb-200-distilled-600M met LoRA op synthetische data behaalde een chrF++ van 49,71 voor Kazachs en 46,94 voor Basjkiers. Het aansturen van DeepSeek-V3.2 met opgehaalde vergelijkbare voorbeelden resulteerde in een chrF++ van 39,47 voor Tsjoevasjisch. Voor Tataars behaalden zero-shot of op retrieval gebaseerde benaderingen een chrF++ van 41,6, terwijl voor Kirgizisch de zero-shot aanpak 45,6 bereikte. Wij publiceren de dataset en de verkregen gewichten.
English
We explore machine translation for five Turkic language pairs: Russian-Bashkir, Russian-Kazakh, Russian-Kyrgyz, English-Tatar, English-Chuvash. Fine-tuning nllb-200-distilled-600M with LoRA on synthetic data achieved chrF++ 49.71 for Kazakh and 46.94 for Bashkir. Prompting DeepSeek-V3.2 with retrieved similar examples achieved chrF++ 39.47 for Chuvash. For Tatar, zero-shot or retrieval-based approaches achieved chrF++ 41.6, while for Kyrgyz the zero-shot approach reached 45.6. We release the dataset and the obtained weights.
PDF41February 6, 2026