ChatPaper.aiChatPaper

Hala Technisch Rapport: Het Bouwen van Arabisch-Gecentreerde Instructie- en Vertaalmodellen op Schaal

Hala Technical Report: Building Arabic-Centric Instruction & Translation Models at Scale

September 17, 2025
Auteurs: Hasan Abed Al Kader Hammoud, Mohammad Zbeeb, Bernard Ghanem
cs.AI

Samenvatting

We presenteren Hala, een familie van Arabisch-gerichte instructie- en vertaalmodellen die zijn gebouwd met onze translate-and-tune-pipeline. We comprimeren eerst een krachtige ARleftrightarrowEN-leraar naar FP8 (wat een sim2 keer hogere doorvoersnelheid oplevert zonder kwaliteitsverlies) en gebruiken deze om hoogwaardige tweetalige supervisie te creëren. Een lichtgewicht taalmodel, LFM2-1.2B, wordt vervolgens op deze data afgestemd en gebruikt om hoogwaardige Engelse instructiesets naar het Arabisch te vertalen, wat resulteert in een corpus op miljoenschaal dat is toegesneden op het volgen van instructies. We trainen Hala-modellen met 350M, 700M, 1.2B en 9B parameters en passen slerp-merging toe om de specialisatie in het Arabisch te balanceren met de sterke punten van het basismodel. Op Arabisch-gerichte benchmarks behaalt Hala state-of-the-art resultaten binnen zowel de "nano" (leq2B) als "small" (7-9B) categorieën, waarbij ze hun basisversies overtreffen. We maken modellen, data, evaluatie en recepten beschikbaar om onderzoek in Arabische NLP te versnellen.
English
We present Hala, a family of Arabic-centric instruction and translation models built with our translate-and-tune pipeline. We first compress a strong ARleftrightarrowEN teacher to FP8 (yielding sim2times higher throughput with no quality loss) and use it to create high-fidelity bilingual supervision. A lightweight language model LFM2-1.2B is then fine-tuned on this data and used to translate high-quality English instruction sets into Arabic, producing a million-scale corpus tailored to instruction following. We train Hala models at 350M, 700M, 1.2B, and 9B parameters, and apply slerp merging to balance Arabic specialization with base-model strengths. On Arabic-centric benchmarks, Hala achieves state-of-the-art results within both the "nano" (leq2B) and "small" (7-9B) categories, outperforming their bases. We release models, data, evaluation, and recipes to accelerate research in Arabic NLP.
PDF873September 18, 2025