ATHAR: Um Conjunto de Dados de Alta Qualidade e Diversificado para Tradução do Árabe Clássico para Inglês
ATHAR: A High-Quality and Diverse Dataset for Classical Arabic to English Translation
July 29, 2024
Autores: Mohammed Khalil, Mohammed Sabry
cs.AI
Resumo
O Árabe Clássico representa uma era significativa, abrangendo a era dourada da cultura árabe, filosofia e literatura científica. Com um amplo consenso sobre a importância de traduzir essas literaturas para enriquecer a disseminação do conhecimento entre as comunidades, o surgimento de grandes modelos de linguagem (LLMs) e sistemas de tradução oferece ferramentas promissoras para facilitar esse objetivo. No entanto, identificamos uma escassez de conjuntos de dados de tradução em Árabe Clássico, que frequentemente são limitados em escopo e tópicos, dificultando o desenvolvimento de sistemas de tradução de alta qualidade. Em resposta, apresentamos o conjunto de dados ATHAR, composto por 66.000 amostras de tradução de Árabe Clássico para Inglês de alta qualidade que abrangem uma ampla variedade de assuntos, incluindo ciência, cultura e filosofia. Além disso, avaliamos o desempenho dos atuais LLMs de ponta em várias configurações, concluindo que há uma necessidade de tais conjuntos de dados nos sistemas atuais. Nossas descobertas destacam como os modelos podem se beneficiar do ajuste fino ou da incorporação deste conjunto de dados em seus pipelines de pré-treinamento. O conjunto de dados está disponível publicamente no HuggingFace Data Hub em https://huggingface.co/datasets/mohamed-khalil/ATHAR.
English
Classical Arabic represents a significant era, encompassing the golden age of
Arab culture, philosophy, and scientific literature. With a broad consensus on
the importance of translating these literatures to enrich knowledge
dissemination across communities, the advent of large language models (LLMs)
and translation systems offers promising tools to facilitate this goal.
However, we have identified a scarcity of translation datasets in Classical
Arabic, which are often limited in scope and topics, hindering the development
of high-quality translation systems. In response, we present the ATHAR dataset,
comprising 66,000 high-quality Classical Arabic to English translation samples
that cover a wide array of subjects including science, culture, and philosophy.
Furthermore, we assess the performance of current state-of-the-art LLMs under
various settings, concluding that there is a need for such datasets in current
systems. Our findings highlight how models can benefit from fine-tuning or
incorporating this dataset into their pretraining pipelines. The dataset is
publicly available on the HuggingFace Data Hub at
https://huggingface.co/datasets/mohamed-khalil/ATHAR.Summary
AI-Generated Summary