ChatPaper.aiChatPaper

Универсального решения не существует: построение систем машинного перевода для башкирского, казахского, киргизского, татарского и чувашского языков с использованием синтетических и оригинальных данных

No One-Size-Fits-All: Building Systems For Translation to Bashkir, Kazakh, Kyrgyz, Tatar and Chuvash Using Synthetic And Original Data

February 4, 2026
Авторы: Dmitry Karpov
cs.AI

Аннотация

Мы исследуем машинный перевод для пяти тюркских языковых пар: русский-башкирский, русский-казахский, русский-киргизский, английский-татарский, английский-чувашский. Дообучение модели nllb-200-distilled-600M с помощью LoRA на синтетических данных позволило достичь chrF++ 49,71 для казахского и 46,94 для башкирского языков. Использование DeepSeek-V3.2 с промптами на основе извлеченных схожих примеров показало результат chrF++ 39,47 для чувашского языка. Для татарского языка подходы без дообучения или на основе извлечения примеров достигли chrF++ 41,6, в то время как для киргизского языка метод без дообучения показал результат 45,6. Мы публикуем набор данных и полученные веса моделей.
English
We explore machine translation for five Turkic language pairs: Russian-Bashkir, Russian-Kazakh, Russian-Kyrgyz, English-Tatar, English-Chuvash. Fine-tuning nllb-200-distilled-600M with LoRA on synthetic data achieved chrF++ 49.71 for Kazakh and 46.94 for Bashkir. Prompting DeepSeek-V3.2 with retrieved similar examples achieved chrF++ 39.47 for Chuvash. For Tatar, zero-shot or retrieval-based approaches achieved chrF++ 41.6, while for Kyrgyz the zero-shot approach reached 45.6. We release the dataset and the obtained weights.
PDF41February 6, 2026