Mutarjim: 소규모 언어 모델을 활용한 아랍어-영어 양방향 번역 기술 발전

초록

우리는 양방향 아랍어-영어 번역을 위한 컴팩트하면서도 강력한 언어 모델인 Mutarjim을 소개한다. 대규모 언어 모델(LLM)이 기계 번역을 포함한 자연어 처리 작업에서 인상적인 진전을 보여왔지만, 더 작은 모델도 유망한 가능성을 보여준다. 이러한 통찰을 바탕으로, 우리는 아랍어와 영어에 특화된 언어 모델인 Kuwain-1.5B를 기반으로 Mutarjim을 개발했다. 상대적으로 작은 크기에도 불구하고, Mutarjim은 최적화된 2단계 학습 접근법과 신중하게 선별된 고품질 학습 코퍼스를 통해 여러 정립된 벤치마크에서 훨씬 더 큰 모델들을 능가한다. 실험 결과, Mutarjim은 최대 20배 더 큰 모델들과 견줄 만한 성능을 보이면서도 계산 비용과 학습 요구 사항을 크게 줄인다. 또한, 우리는 기존 아랍어-영어 벤치마크 데이터셋의 한계(예: 도메인의 협소성, 짧은 문장 길이, 영어 중심 편향)를 극복하기 위해 새로운 벤치마크인 Tarjama-25를 소개한다. Tarjama-25는 전문가 검토를 거친 5,000개의 문장 쌍으로 구성되어 있으며, 다양한 도메인을 포괄하여 더 포괄적이고 균형 잡힌 평가 프레임워크를 제공한다. 특히, Mutarjim은 Tarjama-25의 영어-아랍어 번역 작업에서 최첨단 성능을 달성하며, GPT-4o mini와 같은 훨씬 더 크고 독점적인 모델들도 능가한다. 우리는 Tarjama-25를 공개하여 향후 연구를 지원하고 아랍어-영어 번역 시스템의 평가를 발전시키고자 한다.

English

We introduce Mutarjim, a compact yet powerful language model for bidirectional Arabic-English translation. While large-scale LLMs have shown impressive progress in natural language processing tasks, including machine translation, smaller models. Leveraging this insight, we developed Mutarjim based on Kuwain-1.5B , a language model tailored for both Arabic and English. Despite its modest size, Mutarjim outperforms much larger models on several established benchmarks, achieved through an optimized two-phase training approach and a carefully curated, high-quality training corpus.. Experimental results show that Mutarjim rivals models up to 20 times larger while significantly reducing computational costs and training requirements. We also introduce Tarjama-25, a new benchmark designed to overcome limitations in existing Arabic-English benchmarking datasets, such as domain narrowness, short sentence lengths, and English-source bias. Tarjama-25 comprises 5,000 expert-reviewed sentence pairs and spans a wide range of domains, offering a more comprehensive and balanced evaluation framework. Notably, Mutarjim achieves state-of-the-art performance on the English-to-Arabic task in Tarjama-25, surpassing even significantly larger and proprietary models like GPT-4o mini. We publicly release Tarjama-25 to support future research and advance the evaluation of Arabic-English translation systems.

Mutarjim: 소규모 언어 모델을 활용한 아랍어-영어 양방향 번역 기술 발전

Mutarjim: Advancing Bidirectional Arabic-English Translation with a Small Language Model

초록

Support