ChatPaper.aiChatPaper

쿠와인 1.5B: 언어 주입을 통한 아랍어 소형 언어 모델

Kuwain 1.5B: An Arabic SLM via Language Injection

April 21, 2025
저자: Khalil Hennara, Sara Chrouf, Mohamed Motaism Hamed, Zeina Aldallal, Omar Hadid, Safwan AlModhayan
cs.AI

초록

기존 모델에 새로운 지식을 추가하는 것은 AI 개발의 중요한 측면입니다. 본 논문은 대규모 언어 모델(LLM)에 새로운 언어를 통합하는 혁신적인 방법을 소개합니다. 우리의 접근 방식은 기존 LLM의 사전 지식을 손상시키지 않으면서 이전에 보지 못한 대상 언어를 성공적으로 통합합니다. 우리는 주로 영어로 학습된 소규모 오픈소스 모델에 아랍어를 주입하여 15억 개의 파라미터를 가진 Kuwain이라는 작은 모델을 학습시켰습니다. 우리의 방법은 다양한 벤치마크에서 평균 8%의 성능 향상을 보이며 아랍어 성능을 크게 개선했고, 원본 모델의 데이터를 최소한으로 사용하여 기존 지식을 유지했습니다. 이는 영어와 아랍어 모두를 포함한 포괄적인 모델을 학습시키는 것에 비해 비용 효율적인 대안을 제공합니다. 이러한 결과는 광범위한 재학습이나 자원 집약적인 프로세스 없이도 효율적이고 타겟팅된 언어 모델 확장의 가능성을 강조합니다.
English
Enhancing existing models with new knowledge is a crucial aspect of AI development. This paper introduces a novel method for integrating a new language into a large language model (LLM). Our approach successfully incorporates a previously unseen target language into an existing LLM without compromising its prior knowledge. We trained a tiny model with 1.5 billion parameters named Kuwain by injecting the Arabic language into a small open-source model mainly trained in English. Our method demonstrates significant improvements in Arabic language performance, with an average 8% improvement across various benchmarks, while retaining the model's existing knowledge with a minimum amount of the original model's data. This offers a cost-effective alternative to training a comprehensive model in both English and Arabic. The results highlight the potential for efficient, targeted language model expansion without extensive retraining or resource-intensive processes.

Summary

AI-Generated Summary

PDF1137April 23, 2025