ChatPaper.aiChatPaper

Hala 기술 보고서: 대규모 아랍어 중심 지시 및 번역 모델 구축

Hala Technical Report: Building Arabic-Centric Instruction & Translation Models at Scale

September 17, 2025
저자: Hasan Abed Al Kader Hammoud, Mohammad Zbeeb, Bernard Ghanem
cs.AI

초록

우리는 번역 후 튜닝 파이프라인을 통해 구축한 아랍어 중심의 명령어 및 번역 모델 패밀리인 Hala를 소개합니다. 먼저 강력한 AR↔EN 교사 모델을 FP8로 압축하여(품질 손실 없이 처리량을 약 2배 증가시킴) 고품질의 이중 언어 감독 데이터를 생성합니다. 이후 경량 언어 모델인 LFM2-1.2B를 이 데이터에 미세 조정하여 고품질 영어 명령어 세트를 아랍어로 번역하고, 명령어 수행에 적합한 백만 규모의 코퍼스를 제작합니다. 우리는 350M, 700M, 1.2B, 9B 파라미터 규모의 Hala 모델을 학습시키고, 아랍어 특화와 기본 모델의 강점을 균형 있게 조화시키기 위해 slerp 병합을 적용합니다. 아랍어 중심 벤치마크에서 Hala는 "나노"(≤2B) 및 "스몰"(7-9B) 카테고리 모두에서 최첨단 성능을 달성하며, 기본 모델들을 능가합니다. 아랍어 NLP 연구를 가속화하기 위해 모델, 데이터, 평가 방법 및 레시피를 공개합니다.
English
We present Hala, a family of Arabic-centric instruction and translation models built with our translate-and-tune pipeline. We first compress a strong ARleftrightarrowEN teacher to FP8 (yielding sim2times higher throughput with no quality loss) and use it to create high-fidelity bilingual supervision. A lightweight language model LFM2-1.2B is then fine-tuned on this data and used to translate high-quality English instruction sets into Arabic, producing a million-scale corpus tailored to instruction following. We train Hala models at 350M, 700M, 1.2B, and 9B parameters, and apply slerp merging to balance Arabic specialization with base-model strengths. On Arabic-centric benchmarks, Hala achieves state-of-the-art results within both the "nano" (leq2B) and "small" (7-9B) categories, outperforming their bases. We release models, data, evaluation, and recipes to accelerate research in Arabic NLP.
PDF581September 18, 2025