ChatPaper.aiChatPaper

Rapport Technique Hala : Développement de Modèles d'Instruction et de Traduction Centrés sur l'Arabe à Grande Échelle

Hala Technical Report: Building Arabic-Centric Instruction & Translation Models at Scale

September 17, 2025
papers.authors: Hasan Abed Al Kader Hammoud, Mohammad Zbeeb, Bernard Ghanem
cs.AI

papers.abstract

Nous présentons Hala, une famille de modèles d’instruction et de traduction centrés sur l’arabe, construits grâce à notre pipeline de traduction et d’ajustement. Nous compressons d’abord un modèle enseignant performant AR↔EN en FP8 (permettant un débit environ deux fois plus élevé sans perte de qualité) et l’utilisons pour créer une supervision bilingue de haute fidélité. Un modèle de langage léger LFM2-1.2B est ensuite affiné sur ces données et utilisé pour traduire des ensembles d’instructions de haute qualité de l’anglais vers l’arabe, produisant un corpus à l’échelle du million adapté au suivi d’instructions. Nous entraînons les modèles Hala avec 350M, 700M, 1.2B et 9B de paramètres, et appliquons la fusion slerp pour équilibrer la spécialisation en arabe avec les forces du modèle de base. Sur des benchmarks centrés sur l’arabe, Hala obtient des résultats de pointe dans les catégories « nano » (≤2B) et « petite » (7-9B), surpassant leurs bases. Nous publions les modèles, les données, les évaluations et les recettes pour accélérer la recherche en traitement automatique du langage naturel (TALN) pour l’arabe.
English
We present Hala, a family of Arabic-centric instruction and translation models built with our translate-and-tune pipeline. We first compress a strong ARleftrightarrowEN teacher to FP8 (yielding sim2times higher throughput with no quality loss) and use it to create high-fidelity bilingual supervision. A lightweight language model LFM2-1.2B is then fine-tuned on this data and used to translate high-quality English instruction sets into Arabic, producing a million-scale corpus tailored to instruction following. We train Hala models at 350M, 700M, 1.2B, and 9B parameters, and apply slerp merging to balance Arabic specialization with base-model strengths. On Arabic-centric benchmarks, Hala achieves state-of-the-art results within both the "nano" (leq2B) and "small" (7-9B) categories, outperforming their bases. We release models, data, evaluation, and recipes to accelerate research in Arabic NLP.
PDF581September 18, 2025