SmolLM2: 작은 언어 모델의 데이터 중심 훈련 시, Smol이 커지다SmolLM2: When Smol Goes Big -- Data-Centric Training of a Small Language
Model
대형 언어 모델은 인공 지능의 많은 응용 분야에서의 획기적인 발전을 촉진했지만, 그들의 고유한 거대함은 계산적으로 비싸며 자원이 제한된 환경에서의 배포가 어렵게 만듭니다. 본 논문에서는 최첨단 "소형" (17억 개의 매개변수) 언어 모델(SmolLM2)의 개발을 기술합니다. 강력한 성능을 달성하기 위해 SmolLM2를 약 11조 토큰의 데이터로 다단계 훈련 과정을 통해 과적합시켰는데, 이 과정에서 웹 텍스트와 전문 수학, 코드, 그리고 지시어를 따르는 데이터를 혼합했습니다. 우리는 기존 데이터셋이 문제적으로 작거나 품질이 낮다고 판단된 단계에서 새로운 전문 데이터셋(FineMath, Stack-Edu, SmolTalk)을 도입했습니다. 설계 결정을 지원하기 위해 우리는 소규모 제거 실험과 이전 단계의 성능을 기반으로 각 단계에서 데이터셋 혼합 비율을 업데이트하는 수동 정제 과정을 수행했습니다. 결과적으로, SmolLM2가 Qwen2.5-1.5B와 Llama3.2-1B를 포함한 최근 소형 언어 모델을 능가함을 입증했습니다. LM 개발 및 소형 LM의 응용에 대한 향후 연구를 촉진하기 위해, 이 프로젝트 과정에서 준비한 모든 데이터셋과 함께 SmolLM2를 공개합니다.