ATHAR: Ein hochwertiger und vielfältiger Datensatz für die Übersetzung von klassischem Arabisch ins Englische.
ATHAR: A High-Quality and Diverse Dataset for Classical Arabic to English Translation
July 29, 2024
Autoren: Mohammed Khalil, Mohammed Sabry
cs.AI
Zusammenfassung
Die klassische arabische Sprache repräsentiert eine bedeutende Ära, die das goldene Zeitalter der arabischen Kultur, Philosophie und wissenschaftlichen Literatur umfasst. Mit einem breiten Konsens über die Bedeutung der Übersetzung dieser Literatur zur Bereicherung der Wissensvermittlung zwischen Gemeinschaften bieten die Entstehung großer Sprachmodelle (LLMs) und Übersetzungssysteme vielversprechende Werkzeuge, um dieses Ziel zu erleichtern. Allerdings haben wir einen Mangel an Übersetzungsdatensätzen im Bereich des klassischen Arabischen identifiziert, die oft in Umfang und Themen begrenzt sind und die Entwicklung hochwertiger Übersetzungssysteme behindern. Als Reaktion darauf präsentieren wir den ATHAR-Datensatz, der 66.000 hochwertige Übersetzungsbeispiele von klassischem Arabisch ins Englische umfasst und eine Vielzahl von Themen wie Wissenschaft, Kultur und Philosophie abdeckt. Darüber hinaus bewerten wir die Leistung der aktuellen State-of-the-Art LLMs unter verschiedenen Einstellungen und kommen zu dem Schluss, dass solche Datensätze in aktuellen Systemen benötigt werden. Unsere Ergebnisse zeigen, wie Modelle von Feinabstimmung oder der Integration dieses Datensatzes in ihre Vorbereitungspipelines profitieren können. Der Datensatz ist öffentlich auf dem HuggingFace Data Hub unter https://huggingface.co/datasets/mohamed-khalil/ATHAR verfügbar.
English
Classical Arabic represents a significant era, encompassing the golden age of
Arab culture, philosophy, and scientific literature. With a broad consensus on
the importance of translating these literatures to enrich knowledge
dissemination across communities, the advent of large language models (LLMs)
and translation systems offers promising tools to facilitate this goal.
However, we have identified a scarcity of translation datasets in Classical
Arabic, which are often limited in scope and topics, hindering the development
of high-quality translation systems. In response, we present the ATHAR dataset,
comprising 66,000 high-quality Classical Arabic to English translation samples
that cover a wide array of subjects including science, culture, and philosophy.
Furthermore, we assess the performance of current state-of-the-art LLMs under
various settings, concluding that there is a need for such datasets in current
systems. Our findings highlight how models can benefit from fine-tuning or
incorporating this dataset into their pretraining pipelines. The dataset is
publicly available on the HuggingFace Data Hub at
https://huggingface.co/datasets/mohamed-khalil/ATHAR.Summary
AI-Generated Summary