Rho-1: 모든 토큰이 필요한 것은 아니다Rho-1: Not All Tokens Are What You Need
기존의 언어 모델 사전 학습 방법들은 모든 학습 토큰에 대해 균일하게 다음 토큰 예측 손실을 적용해 왔습니다. 이러한 관행에 도전하며, 우리는 "코퍼스 내 모든 토큰이 언어 모델 학습에 동등하게 중요한 것은 아니다"라는 가설을 제시합니다. 초기 분석에서 우리는 언어 모델의 토큰 수준 학습 동역학을 탐구하며, 서로 다른 토큰에 대한 뚜렷한 손실 패턴을 발견했습니다. 이러한 통찰을 바탕으로, 우리는 Rho-1이라는 새로운 언어 모델을 소개합니다. 전통적인 언어 모델들이 코퍼스의 모든 다음 토큰을 예측하도록 학습하는 것과 달리, Rho-1은 원하는 분포와 일치하는 유용한 토큰을 선택적으로 학습하는 선택적 언어 모델링(Selective Language Modeling, SLM)을 채택합니다. 이 접근법은 참조 모델을 사용해 사전 학습 토큰을 점수화하고, 더 높은 초과 손실을 보이는 토큰에 집중된 손실로 언어 모델을 학습시키는 것을 포함합니다. 15B OpenWebMath 코퍼스에서의 지속적인 사전 학습 시, Rho-1은 9개의 수학 과제에서 최대 30%의 절대적 향상을 보이는 소수 샷 정확도를 달성했습니다. 미세 조정 후, Rho-1-1B와 7B는 각각 MATH 데이터셋에서 40.6%와 51.8%의 최첨단 결과를 기록하며, 사전 학습 토큰의 단 3%만으로 DeepSeekMath와 동등한 성능을 보였습니다. 또한, 80B 일반 토큰에 대한 사전 학습 시 Rho-1은 15개의 다양한 과제에서 평균 6.8%의 향상을 달성하며, 언어 모델 사전 학습의 효율성과 성능을 모두 높였습니다.