ChatPaper.aiChatPaper

일반화의 한계: 합성 데이터와 원본 데이터를 활용한 바시키르어, 카자흐어, 키르기스어, 타타르어, 추바시어 번역 시스템 구축

No One-Size-Fits-All: Building Systems For Translation to Bashkir, Kazakh, Kyrgyz, Tatar and Chuvash Using Synthetic And Original Data

February 4, 2026
저자: Dmitry Karpov
cs.AI

초록

우리는 다섯 튀르크어 언어 쌍에 대한 기계 번역을 탐구한다: 러시아어-바시키르어, 러시아어-카자흐어, 러시아어-키르기스어, 영어-타타르어, 영어-추바시어. 합성 데이터에 대해 LoRA를 사용하여 nllb-200-distilled-600M을 미세 조정한 결과 카자흐어는 chrF++ 49.71, 바시키르어는 46.94를 달성했다. 유사한 예시를 검색하여 DeepSeek-V3.2를 프롬프팅한 방법은 추바시어에서 chrF++ 39.47을 달성했다. 타타르어의 경우 제로샷 또는 검색 기반 접근법으로 chrF++ 41.6을, 키르기스어의 경우 제로샷 접근법으로 45.6을 달성했다. 우리는 데이터셋과 획득한 가중치를 공개한다.
English
We explore machine translation for five Turkic language pairs: Russian-Bashkir, Russian-Kazakh, Russian-Kyrgyz, English-Tatar, English-Chuvash. Fine-tuning nllb-200-distilled-600M with LoRA on synthetic data achieved chrF++ 49.71 for Kazakh and 46.94 for Bashkir. Prompting DeepSeek-V3.2 with retrieved similar examples achieved chrF++ 39.47 for Chuvash. For Tatar, zero-shot or retrieval-based approaches achieved chrF++ 41.6, while for Kyrgyz the zero-shot approach reached 45.6. We release the dataset and the obtained weights.
PDF41February 6, 2026