rStar-Math: 작은 LLMs가 자기 진화된 심층 사고로 수학 추론을 습득할 수 있습니다.rStar-Math: Small LLMs Can Master Math Reasoning with Self-Evolved Deep
Thinking
우리는 rStar-Math를 제시하여 작은 언어 모델(SLM)이 우수한 모델로부터의 증류 없이도 OpenAI o1의 수학 추론 능력을 견줄하거나 심지어 능가할 수 있다는 것을 입증합니다. rStar-Math는 Monte Carlo Tree Search (MCTS)를 통해 "심층적 사고"를 수행함으로써 이를 달성합니다. 여기서 수학 정책 SLM은 SLM 기반의 프로세스 보상 모델에 의해 안내되는 테스트 시간 검색을 수행합니다. rStar-Math는 두 SLM을 훈련하는 과정에서 발생하는 도전에 대응하기 위해 세 가지 혁신을 도입합니다: (1) 정책 SLM을 훈련하는 데 사용되는 단계별 검증된 추론 경로를 생성하기 위해 광범위한 MCTS 롤아웃을 수행하는 혁신적인 코드 보강 CoT 데이터 합성 방법; (2) 단계별 점수 주석을 피하고 더 효과적인 프로세스 선호 모델 (PPM)을 얻는 새로운 프로세스 보상 모델 훈련 방법; (3) 정책 SLM과 PPM을 처음부터 구축하고 추론 능력을 향상시키기 위해 반복적으로 진화시키는 자체 진화 레시피. 747k개의 수학 문제에 대한 수백만 개의 합성 솔루션을 통해 4회의 자체 진화를 통해 rStar-Math는 SLM의 수학 추론을 최첨단 수준으로 끌어올립니다. MATH 벤치마크에서는 Qwen2.5-Math-7B를 58.8%에서 90.0%로, Phi3-mini-3.8B를 41.4%에서 86.4%로 개선하여 o1-preview를 +4.5% 및 +0.9% 초과합니다. USA 수학 올림피아드(AIME)에서 rStar-Math는 평균 53.3% (8/15)의 문제를 해결하여 가장 뛰어난 고등학교 수학 학생들 중 상위 20%에 속합니다. 코드와 데이터는 https://github.com/microsoft/rStar에서 제공될 예정입니다.