ChatPaper.aiChatPaper

ATHAR: 고품질 및 다양한 고전 아랍어-영어 번역을 위한 데이터셋

ATHAR: A High-Quality and Diverse Dataset for Classical Arabic to English Translation

July 29, 2024
저자: Mohammed Khalil, Mohammed Sabry
cs.AI

초록

고전 아랍어는 아랍 문화, 철학, 그리고 과학 문학의 황금기를 아우르는 중요한 시대를 대표합니다. 이러한 문학 작품들을 번역하여 다양한 공동체 간의 지식 전파를 풍부하게 하는 것의 중요성에 대해 폭넓은 합의가 이루어져 있으며, 대형 언어 모델(LLMs)과 번역 시스템의 등장은 이러한 목표를 촉진할 유망한 도구를 제공합니다. 그러나 고전 아랍어 번역 데이터셋의 부족이 지적되고 있으며, 이는 종종 범위와 주제가 제한적이어서 고품질 번역 시스템의 개발을 방해하고 있습니다. 이에 대응하여, 우리는 과학, 문화, 철학 등 다양한 주제를 포괄하는 66,000개의 고품질 고전 아랍어-영어 번역 샘플로 구성된 ATHAR 데이터셋을 제시합니다. 더 나아가, 우리는 다양한 설정 하에서 현재 최첨단 LLMs의 성능을 평가하며, 이러한 데이터셋이 현재 시스템에 필요하다는 결론을 내렸습니다. 우리의 연구 결과는 모델이 이 데이터셋을 미세 조정하거나 사전 학습 파이프라인에 통합함으로써 어떻게 이점을 얻을 수 있는지를 강조합니다. 이 데이터셋은 HuggingFace 데이터 허브(https://huggingface.co/datasets/mohamed-khalil/ATHAR)에서 공개적으로 이용 가능합니다.
English
Classical Arabic represents a significant era, encompassing the golden age of Arab culture, philosophy, and scientific literature. With a broad consensus on the importance of translating these literatures to enrich knowledge dissemination across communities, the advent of large language models (LLMs) and translation systems offers promising tools to facilitate this goal. However, we have identified a scarcity of translation datasets in Classical Arabic, which are often limited in scope and topics, hindering the development of high-quality translation systems. In response, we present the ATHAR dataset, comprising 66,000 high-quality Classical Arabic to English translation samples that cover a wide array of subjects including science, culture, and philosophy. Furthermore, we assess the performance of current state-of-the-art LLMs under various settings, concluding that there is a need for such datasets in current systems. Our findings highlight how models can benefit from fine-tuning or incorporating this dataset into their pretraining pipelines. The dataset is publicly available on the HuggingFace Data Hub at https://huggingface.co/datasets/mohamed-khalil/ATHAR.

Summary

AI-Generated Summary

PDF211November 28, 2024