언어 데이터 이니셔티브: 카라칼파크어를 위한 저자원 기계 번역 발전

초록

이 연구는 카라칼파크어에 대한 여러 기여를 제시합니다: 카라칼파크어로 번역된 FLORES+ 개발 테스트 데이터셋, 우즈벡어-카라칼파크어, 러시아어-카라칼파크어, 영어-카라칼파크어 각각 100,000쌍의 병렬 말뭉치 및 이러한 언어 간 번역을 위한 오픈소스로 공개된 파인튜닉된 신경망 모델입니다. 우리의 실험은 다양한 모델 변형과 훈련 접근 방식을 비교하여 기존 기준선을 향상시키는 것을 보여줍니다. 이 작업은 Open Language Data Initiative (OLDI) 공유 작업의 일환으로 진행되었으며, 카라칼파크어의 기계 번역 능력을 향상시키고 자연어 처리 기술에서 언어 다양성을 확대하는 데 기여하기 위한 목적을 가지고 있습니다.

English

This study presents several contributions for the Karakalpak language: a FLORES+ devtest dataset translated to Karakalpak, parallel corpora for Uzbek-Karakalpak, Russian-Karakalpak and English-Karakalpak of 100,000 pairs each and open-sourced fine-tuned neural models for translation across these languages. Our experiments compare different model variants and training approaches, demonstrating improvements over existing baselines. This work, conducted as part of the Open Language Data Initiative (OLDI) shared task, aims to advance machine translation capabilities for Karakalpak and contribute to expanding linguistic diversity in NLP technologies.