ChatPaper.aiChatPaper

Não Existe uma Solução Única: Construindo Sistemas para Tradução para Bashkir, Cazaque, Quirguiz, Tatar e Chuvash Usando Dados Sintéticos e Originais

No One-Size-Fits-All: Building Systems For Translation to Bashkir, Kazakh, Kyrgyz, Tatar and Chuvash Using Synthetic And Original Data

February 4, 2026
Autores: Dmitry Karpov
cs.AI

Resumo

Exploramos a tradução automática para cinco pares de línguas turcas: Russo-Bashkir, Russo-Cazaque, Russo-Quirguiz, Inglês-Tatar e Inglês-Chuvash. O *fine-tuning* do modelo nllb-200-distilled-600M com LoRA em dados sintéticos alcançou chrF++ 49,71 para o cazaque e 46,94 para o bashkir. A técnica de *prompting* do modelo DeepSeek-V3.2 com exemplos similares recuperados alcançou chrF++ 39,47 para o chuvash. Para o tatar, abordagens baseadas em *zero-shot* ou recuperação de exemplos alcançaram chrF++ 41,6, enquanto para o quirguiz a abordagem *zero-shot* atingiu 45,6. Disponibilizamos o conjunto de dados e os pesos obtidos.
English
We explore machine translation for five Turkic language pairs: Russian-Bashkir, Russian-Kazakh, Russian-Kyrgyz, English-Tatar, English-Chuvash. Fine-tuning nllb-200-distilled-600M with LoRA on synthetic data achieved chrF++ 49.71 for Kazakh and 46.94 for Bashkir. Prompting DeepSeek-V3.2 with retrieved similar examples achieved chrF++ 39.47 for Chuvash. For Tatar, zero-shot or retrieval-based approaches achieved chrF++ 41.6, while for Kyrgyz the zero-shot approach reached 45.6. We release the dataset and the obtained weights.
PDF41February 6, 2026