Pas de solution universelle : Construction de systèmes de traduction pour le bachkir, le kazakh, le kirghize, le tatar et le tchouvache à l'aide de données synthétiques et originales
No One-Size-Fits-All: Building Systems For Translation to Bashkir, Kazakh, Kyrgyz, Tatar and Chuvash Using Synthetic And Original Data
February 4, 2026
papers.authors: Dmitry Karpov
cs.AI
papers.abstract
Nous explorons la traduction automatique pour cinq paires de langues turciques : russe-bachkir, russe-kazakh, russe-kirghiz, anglais-tatar et anglais-tchouvache. Le fine-tuning de nllb-200-distilled-600M avec LoRA sur des données synthétiques a permis d'atteindre un score chrF++ de 49,71 pour le kazakh et 46,94 pour le bachkir. L'approche par prompting de DeepSeek-V3.2 avec récupération d'exemples similaires a obtenu un chrF++ de 39,47 pour le tchouvache. Pour le tatar, les approches zero-shot ou basées sur la récupération ont atteint un chrF++ de 41,6, tandis que pour le kirghiz, l'approche zero-shot a obtenu 45,6. Nous rendons publics le jeu de données et les poids obtenus.
English
We explore machine translation for five Turkic language pairs: Russian-Bashkir, Russian-Kazakh, Russian-Kyrgyz, English-Tatar, English-Chuvash. Fine-tuning nllb-200-distilled-600M with LoRA on synthetic data achieved chrF++ 49.71 for Kazakh and 46.94 for Bashkir. Prompting DeepSeek-V3.2 with retrieved similar examples achieved chrF++ 39.47 for Chuvash. For Tatar, zero-shot or retrieval-based approaches achieved chrF++ 41.6, while for Kyrgyz the zero-shot approach reached 45.6. We release the dataset and the obtained weights.