ChatPaper.aiChatPaper

Универсального решения не существует: создание систем перевода для башкирского, казахского, киргизского, татарского и чувашского языков с использованием синтетических и оригинальных данных

No One-Size-Fits-All: Building Systems For Translation to Bashkir, Kazakh, Kyrgyz, Tatar and Chuvash Using Synthetic And Original Data

February 4, 2026
Autori: Dmitry Karpov
cs.AI

Abstract

Esploriamo la traduzione automatica per cinque coppie di lingue turche: russo-baschiro, russo-kazako, russo-chirghiso, inglese-tataro, inglese-ciuvascio. Il fine-tuning del modello nllb-200-distilled-600M con LoRA su dati sintetici ha ottenuto un punteggio chrF++ di 49,71 per il kazako e 46,94 per il baschiro. L'utilizzo del prompting con DeepSeek-V3.2, basato sul recupero di esempi simili, ha raggiunto un chrF++ di 39,47 per il ciuvascio. Per il tataro, approcci zero-shot o basati sul recupero hanno ottenuto un chrF++ di 41,6, mentre per il chirghiso l'approccio zero-shot ha raggiunto 45,6. Rilasciamo il dataset e i pesi ottenuti.
English
We explore machine translation for five Turkic language pairs: Russian-Bashkir, Russian-Kazakh, Russian-Kyrgyz, English-Tatar, English-Chuvash. Fine-tuning nllb-200-distilled-600M with LoRA on synthetic data achieved chrF++ 49.71 for Kazakh and 46.94 for Bashkir. Prompting DeepSeek-V3.2 with retrieved similar examples achieved chrF++ 39.47 for Chuvash. For Tatar, zero-shot or retrieval-based approaches achieved chrF++ 41.6, while for Kyrgyz the zero-shot approach reached 45.6. We release the dataset and the obtained weights.
PDF33February 8, 2026