ChatPaper.aiChatPaper

Shiksha: インド言語向けの技術領域に焦点を当てた翻訳データセットとモデル

Shiksha: A Technical Domain focused Translation Dataset and Model for Indian Languages

December 12, 2024
著者: Advait Joglekar, Srinivasan Umesh
cs.AI

要旨

ニューラル機械翻訳(NMT)モデルは、一般的に、科学技術および教育分野に限られた露出を持つデータセットで訓練されます。そのため、翻訳モデルは一般的に、科学的理解や専門用語を含むタスクに苦労します。彼らのパフォーマンスは、リソースが限られたインドの言語に対してさらに悪いとされています。特にこれらの分野に焦点を当てた翻訳データセットを見つけることは、困難な課題です。本論文では、8つのインド言語にわたる英語からインディック語へ、およびインディック語からインディック語への高品質な翻訳ペアを含む多言語平行コーパスを作成することで、この課題に取り組みます。NPTELビデオ講義の人間による翻訳された転記をバイテキストマイニングすることで、これを達成します。また、このコーパスを使用してNMTモデルを微調整し評価し、すべての他の公開モデルを上回るドメイン内タスクでの成績を収めます。さらに、これらのインド言語において、Flores+ベンチマークでベースラインを平均で2 BLEU以上改善することにより、ドメイン外の翻訳タスクに対する一般化の可能性を示します。私たちは、当該リンクを通じて当社のモデルとデータセットを公開することを喜んでいます:https://huggingface.co/SPRINGLab。
English
Neural Machine Translation (NMT) models are typically trained on datasets with limited exposure to Scientific, Technical and Educational domains. Translation models thus, in general, struggle with tasks that involve scientific understanding or technical jargon. Their performance is found to be even worse for low-resource Indian languages. Finding a translation dataset that tends to these domains in particular, poses a difficult challenge. In this paper, we address this by creating a multilingual parallel corpus containing more than 2.8 million rows of English-to-Indic and Indic-to-Indic high-quality translation pairs across 8 Indian languages. We achieve this by bitext mining human-translated transcriptions of NPTEL video lectures. We also finetune and evaluate NMT models using this corpus and surpass all other publicly available models at in-domain tasks. We also demonstrate the potential for generalizing to out-of-domain translation tasks by improving the baseline by over 2 BLEU on average for these Indian languages on the Flores+ benchmark. We are pleased to release our model and dataset via this link: https://huggingface.co/SPRINGLab.

Summary

AI-Generated Summary

PDF42December 13, 2024