ATHAR : Un ensemble de données de haute qualité et diversifié pour la traduction de l'arabe classique vers l'anglais
ATHAR: A High-Quality and Diverse Dataset for Classical Arabic to English Translation
July 29, 2024
Auteurs: Mohammed Khalil, Mohammed Sabry
cs.AI
Résumé
L'arabe classique représente une ère significative, englobant l'âge d'or de la culture, de la philosophie et de la littérature scientifique arabes. Avec un large consensus sur l'importance de traduire ces œuvres pour enrichir la diffusion des connaissances à travers les communautés, l'avènement des grands modèles de langage (LLMs) et des systèmes de traduction offre des outils prometteurs pour faciliter cet objectif. Cependant, nous avons identifié une pénurie de jeux de données de traduction en arabe classique, souvent limités en portée et en sujets, ce qui entrave le développement de systèmes de traduction de haute qualité. En réponse, nous présentons le jeu de données ATHAR, comprenant 66 000 échantillons de traduction de haute qualité de l'arabe classique vers l'anglais, couvrant un large éventail de sujets incluant la science, la culture et la philosophie. De plus, nous évaluons les performances des LLMs actuels de pointe dans divers contextes, concluant qu'il existe un besoin pour de tels jeux de données dans les systèmes actuels. Nos résultats mettent en évidence comment les modèles peuvent bénéficier d'un ajustement fin ou de l'intégration de ce jeu de données dans leurs pipelines de pré-entraînement. Le jeu de données est disponible publiquement sur le HuggingFace Data Hub à l'adresse suivante : https://huggingface.co/datasets/mohamed-khalil/ATHAR.
English
Classical Arabic represents a significant era, encompassing the golden age of
Arab culture, philosophy, and scientific literature. With a broad consensus on
the importance of translating these literatures to enrich knowledge
dissemination across communities, the advent of large language models (LLMs)
and translation systems offers promising tools to facilitate this goal.
However, we have identified a scarcity of translation datasets in Classical
Arabic, which are often limited in scope and topics, hindering the development
of high-quality translation systems. In response, we present the ATHAR dataset,
comprising 66,000 high-quality Classical Arabic to English translation samples
that cover a wide array of subjects including science, culture, and philosophy.
Furthermore, we assess the performance of current state-of-the-art LLMs under
various settings, concluding that there is a need for such datasets in current
systems. Our findings highlight how models can benefit from fine-tuning or
incorporating this dataset into their pretraining pipelines. The dataset is
publicly available on the HuggingFace Data Hub at
https://huggingface.co/datasets/mohamed-khalil/ATHAR.Summary
AI-Generated Summary