Hala Technischer Bericht: Entwicklung arabisch-zentrierter Instruktions- und Übersetzungsmodelle im großen Maßstab
Hala Technical Report: Building Arabic-Centric Instruction & Translation Models at Scale
September 17, 2025
papers.authors: Hasan Abed Al Kader Hammoud, Mohammad Zbeeb, Bernard Ghanem
cs.AI
papers.abstract
Wir präsentieren Hala, eine Familie von arabisch-zentrierten Instruktions- und Übersetzungsmodellen, die mit unserer Translate-and-Tune-Pipeline entwickelt wurden. Zuerst komprimieren wir ein leistungsstarkes AR↔EN-Lehrermodell auf FP8 (was einen etwa 2-fachen Durchsatz ohne Qualitätsverlust ermöglicht) und verwenden es, um hochwertige bilinguale Supervision zu erstellen. Ein leichtgewichtiges Sprachmodell LFM2-1.2B wird dann auf diesen Daten feinabgestimmt und verwendet, um hochwertige englische Instruktionssätze ins Arabische zu übersetzen, wodurch ein Millionen-umfassendes Korpus entsteht, das auf die Befolgung von Anweisungen zugeschnitten ist. Wir trainieren Hala-Modelle mit 350M, 700M, 1.2B und 9B Parametern und wenden Slerp-Merging an, um die arabische Spezialisierung mit den Stärken des Basismodells auszugleichen. Auf arabisch-zentrierten Benchmarks erzielt Hala state-of-the-art Ergebnisse sowohl in der „Nano“- (≤2B) als auch in der „Small“-Kategorie (7-9B) und übertrifft dabei ihre Basismodelle. Wir veröffentlichen Modelle, Daten, Evaluierungen und Rezepte, um die Forschung im Bereich der arabischen NLP zu beschleunigen.
English
We present Hala, a family of Arabic-centric instruction and translation
models built with our translate-and-tune pipeline. We first compress a strong
ARleftrightarrowEN teacher to FP8 (yielding sim2times higher
throughput with no quality loss) and use it to create high-fidelity bilingual
supervision. A lightweight language model LFM2-1.2B is then fine-tuned on this
data and used to translate high-quality English instruction sets into Arabic,
producing a million-scale corpus tailored to instruction following. We train
Hala models at 350M, 700M, 1.2B, and 9B parameters, and apply slerp merging to
balance Arabic specialization with base-model strengths. On Arabic-centric
benchmarks, Hala achieves state-of-the-art results within both the "nano"
(leq2B) and "small" (7-9B) categories, outperforming their bases. We release
models, data, evaluation, and recipes to accelerate research in Arabic NLP.