ChatPaper.aiChatPaper

オープン言語データイニシアチブ:カラカルパク語の低リソース機械翻訳の推進

Open Language Data Initiative: Advancing Low-Resource Machine Translation for Karakalpak

September 6, 2024
著者: Mukhammadsaid Mamasaidov, Abror Shopulatov
cs.AI

要旨

この研究では、カラカルパク語向けにいくつかの貢献を提供しています。FLORES+の開発テストデータセットをカラカルパク語に翻訳し、それぞれ10万ペアのウズベク語-カラカルパク語、ロシア語-カラカルパク語、英語-カラカルパク語の平行コーパスを作成し、これらの言語間の翻訳用にオープンソースのファインチューニングされたニューラルモデルを提供しています。私たちの実験では、異なるモデルのバリアントやトレーニングアプローチを比較し、既存のベースラインに対する改善を示しています。この研究は、Open Language Data Initiative (OLDI) 共有タスクの一環として行われ、カラカルパク語の機械翻訳能力を向上させ、NLP技術における言語多様性の拡大に貢献することを目指しています。
English
This study presents several contributions for the Karakalpak language: a FLORES+ devtest dataset translated to Karakalpak, parallel corpora for Uzbek-Karakalpak, Russian-Karakalpak and English-Karakalpak of 100,000 pairs each and open-sourced fine-tuned neural models for translation across these languages. Our experiments compare different model variants and training approaches, demonstrating improvements over existing baselines. This work, conducted as part of the Open Language Data Initiative (OLDI) shared task, aims to advance machine translation capabilities for Karakalpak and contribute to expanding linguistic diversity in NLP technologies.

Summary

AI-Generated Summary

PDF113November 16, 2024