Informe Técnico de Hala: Construcción de Modelos de Instrucción y Traducción Centrados en el Árabe a Gran Escala
Hala Technical Report: Building Arabic-Centric Instruction & Translation Models at Scale
September 17, 2025
Autores: Hasan Abed Al Kader Hammoud, Mohammad Zbeeb, Bernard Ghanem
cs.AI
Resumen
Presentamos Hala, una familia de modelos de instrucción y traducción centrados en el árabe, construidos con nuestra canalización de traducción y ajuste. Primero comprimimos un potente profesor ARleftrightarrowEN a FP8 (obteniendo un rendimiento sim2veces mayor sin pérdida de calidad) y lo utilizamos para crear supervisión bilingüe de alta fidelidad. Luego, un modelo de lenguaje ligero LFM2-1.2B se ajusta sobre estos datos y se utiliza para traducir conjuntos de instrucciones en inglés de alta calidad al árabe, produciendo un corpus a escala de millones adaptado para el seguimiento de instrucciones. Entrenamos modelos Hala con 350M, 700M, 1.2B y 9B parámetros, y aplicamos fusión slerp para equilibrar la especialización en árabe con las fortalezas del modelo base. En benchmarks centrados en el árabe, Hala logra resultados de vanguardia tanto en la categoría "nano" (leq2B) como en la "pequeña" (7-9B), superando a sus bases. Publicamos modelos, datos, evaluación y recetas para acelerar la investigación en PLN para el árabe.
English
We present Hala, a family of Arabic-centric instruction and translation
models built with our translate-and-tune pipeline. We first compress a strong
ARleftrightarrowEN teacher to FP8 (yielding sim2times higher
throughput with no quality loss) and use it to create high-fidelity bilingual
supervision. A lightweight language model LFM2-1.2B is then fine-tuned on this
data and used to translate high-quality English instruction sets into Arabic,
producing a million-scale corpus tailored to instruction following. We train
Hala models at 350M, 700M, 1.2B, and 9B parameters, and apply slerp merging to
balance Arabic specialization with base-model strengths. On Arabic-centric
benchmarks, Hala achieves state-of-the-art results within both the "nano"
(leq2B) and "small" (7-9B) categories, outperforming their bases. We release
models, data, evaluation, and recipes to accelerate research in Arabic NLP.