ChatPaper.aiChatPaper

ATHAR:古典アラビア語から英語への翻訳のための高品質で多様なデータセット

ATHAR: A High-Quality and Diverse Dataset for Classical Arabic to English Translation

July 29, 2024
著者: Mohammed Khalil, Mohammed Sabry
cs.AI

要旨

古典アラビア語は、アラブ文化、哲学、科学文献の黄金時代を包括する重要な時代を表しています。これらの文献を翻訳し、知識の普及を促進することの重要性については広く合意が得られており、大規模言語モデル(LLMs)や翻訳システムの登場は、この目標を達成するための有望なツールを提供しています。しかし、古典アラビア語の翻訳データセットが不足しており、その範囲やトピックが限られていることが、高品質な翻訳システムの開発を妨げていることが明らかになりました。これに対応して、私たちはATHARデータセットを提示します。このデータセットは、科学、文化、哲学など多岐にわたる主題をカバーする66,000の高品質な古典アラビア語から英語への翻訳サンプルで構成されています。さらに、現在の最先端のLLMsの性能をさまざまな設定で評価し、現在のシステムにはこのようなデータセットが必要であると結論付けました。私たちの調査結果は、モデルがこのデータセットをファインチューニングしたり、事前学習パイプラインに組み込むことでどのように恩恵を受けるかを強調しています。このデータセットは、HuggingFace Data Hubで公開されており、以下のURLからアクセスできます:https://huggingface.co/datasets/mohamed-khalil/ATHAR。
English
Classical Arabic represents a significant era, encompassing the golden age of Arab culture, philosophy, and scientific literature. With a broad consensus on the importance of translating these literatures to enrich knowledge dissemination across communities, the advent of large language models (LLMs) and translation systems offers promising tools to facilitate this goal. However, we have identified a scarcity of translation datasets in Classical Arabic, which are often limited in scope and topics, hindering the development of high-quality translation systems. In response, we present the ATHAR dataset, comprising 66,000 high-quality Classical Arabic to English translation samples that cover a wide array of subjects including science, culture, and philosophy. Furthermore, we assess the performance of current state-of-the-art LLMs under various settings, concluding that there is a need for such datasets in current systems. Our findings highlight how models can benefit from fine-tuning or incorporating this dataset into their pretraining pipelines. The dataset is publicly available on the HuggingFace Data Hub at https://huggingface.co/datasets/mohamed-khalil/ATHAR.

Summary

AI-Generated Summary

PDF211November 28, 2024