ChatPaper.aiChatPaper

Keine Universallösung: Entwicklung von Systemen für die Übersetzung ins Baschkirische, Kasachische, Kirgisische, Tatarische und Tschuwaschische unter Verwendung synthetischer und originaler Daten

No One-Size-Fits-All: Building Systems For Translation to Bashkir, Kazakh, Kyrgyz, Tatar and Chuvash Using Synthetic And Original Data

February 4, 2026
papers.authors: Dmitry Karpov
cs.AI

papers.abstract

Wir untersuchen maschinelle Übersetzung für fünf Turksprachen-Paare: Russisch-Baschkirisch, Russisch-Kasachisch, Russisch-Kirgisisch, Englisch-Tatarisch, Englisch-Tschuwaschisch. Das Finetuning von nllb-200-distilled-600M mit LoRA auf synthetischen Daten erzielte chrF++ 49,71 für Kasachisch und 46,94 für Baschkirisch. Das Prompting von DeepSeek-V3.2 mit ähnlichen, abgerufenen Beispielen erreichte chrF++ 39,47 für Tschuwaschisch. Für Tatarisch erzielten Zero-Shot- oder retrieverbasierte Ansätze chrF++ 41,6, während für Kirgisisch der Zero-Shot-Ansatz 45,6 erreichte. Wir veröffentlichen den Datensatz und die erhaltenen Gewichte.
English
We explore machine translation for five Turkic language pairs: Russian-Bashkir, Russian-Kazakh, Russian-Kyrgyz, English-Tatar, English-Chuvash. Fine-tuning nllb-200-distilled-600M with LoRA on synthetic data achieved chrF++ 49.71 for Kazakh and 46.94 for Bashkir. Prompting DeepSeek-V3.2 with retrieved similar examples achieved chrF++ 39.47 for Chuvash. For Tatar, zero-shot or retrieval-based approaches achieved chrF++ 41.6, while for Kyrgyz the zero-shot approach reached 45.6. We release the dataset and the obtained weights.
PDF41February 6, 2026