Mutarjim: 소규모 언어 모델을 활용한 아랍어-영어 양방향 번역 기술 발전Mutarjim: Advancing Bidirectional Arabic-English Translation with a
Small Language Model
우리는 양방향 아랍어-영어 번역을 위한 컴팩트하면서도 강력한 언어 모델인 Mutarjim을 소개한다. 대규모 언어 모델(LLM)이 기계 번역을 포함한 자연어 처리 작업에서 인상적인 진전을 보여왔지만, 더 작은 모델도 유망한 가능성을 보여준다. 이러한 통찰을 바탕으로, 우리는 아랍어와 영어에 특화된 언어 모델인 Kuwain-1.5B를 기반으로 Mutarjim을 개발했다. 상대적으로 작은 크기에도 불구하고, Mutarjim은 최적화된 2단계 학습 접근법과 신중하게 선별된 고품질 학습 코퍼스를 통해 여러 정립된 벤치마크에서 훨씬 더 큰 모델들을 능가한다. 실험 결과, Mutarjim은 최대 20배 더 큰 모델들과 견줄 만한 성능을 보이면서도 계산 비용과 학습 요구 사항을 크게 줄인다. 또한, 우리는 기존 아랍어-영어 벤치마크 데이터셋의 한계(예: 도메인의 협소성, 짧은 문장 길이, 영어 중심 편향)를 극복하기 위해 새로운 벤치마크인 Tarjama-25를 소개한다. Tarjama-25는 전문가 검토를 거친 5,000개의 문장 쌍으로 구성되어 있으며, 다양한 도메인을 포괄하여 더 포괄적이고 균형 잡힌 평가 프레임워크를 제공한다. 특히, Mutarjim은 Tarjama-25의 영어-아랍어 번역 작업에서 최첨단 성능을 달성하며, GPT-4o mini와 같은 훨씬 더 크고 독점적인 모델들도 능가한다. 우리는 Tarjama-25를 공개하여 향후 연구를 지원하고 아랍어-영어 번역 시스템의 평가를 발전시키고자 한다.