ChatPaper.aiChatPaper

万能モデルは存在しない:合成データと実データを用いたバシキール語、カザフ語、キルギス語、タタール語、チュヴァシ語への翻訳システム構築

No One-Size-Fits-All: Building Systems For Translation to Bashkir, Kazakh, Kyrgyz, Tatar and Chuvash Using Synthetic And Original Data

February 4, 2026
著者: Dmitry Karpov
cs.AI

要旨

我々は、5つのテュルク諸語ペア(ロシア語-バシキール語、ロシア語-カザフ語、ロシア語-キルギス語、英語-タタール語、英語-チュヴァシ語)における機械翻訳を検討する。合成データを用いたLoRAによるnllb-200-distilled-600Mのファインチューニングでは、カザフ語でchrF++ 49.71、バシキール語で46.94を達成した。検索された類似例を用いたDeepSeek-V3.2のプロンプティングでは、チュヴァシ語でchrF++ 39.47を達成した。タタール語では、ゼロショットまたは検索ベースのアプローチでchrF++ 41.6を、キルギス語ではゼロショットアプローチで45.6を達成した。データセットと学習済み重みを公開する。
English
We explore machine translation for five Turkic language pairs: Russian-Bashkir, Russian-Kazakh, Russian-Kyrgyz, English-Tatar, English-Chuvash. Fine-tuning nllb-200-distilled-600M with LoRA on synthetic data achieved chrF++ 49.71 for Kazakh and 46.94 for Bashkir. Prompting DeepSeek-V3.2 with retrieved similar examples achieved chrF++ 39.47 for Chuvash. For Tatar, zero-shot or retrieval-based approaches achieved chrF++ 41.6, while for Kyrgyz the zero-shot approach reached 45.6. We release the dataset and the obtained weights.
PDF41February 6, 2026