ChatPaper.aiChatPaper

일반적인 7B 규모의 언어 모델은 이미 강력한 수학 능력을 보유하고 있습니다.

Common 7B Language Models Already Possess Strong Math Capabilities

March 7, 2024
저자: Chen Li, Weiqi Wang, Jingcheng Hu, Yixuan Wei, Nanning Zheng, Han Hu, Zheng Zhang, Houwen Peng
cs.AI

초록

수학적 능력은 이전에는 매우 큰 규모의 모델에서만 나타나거나 수학 관련 사전 학습이 광범위하게 필요하다고 여겨졌다. 본 논문은 일반적인 사전 학습을 거친 LLaMA-2 7B 모델이 이미 강력한 수학적 능력을 보인다는 것을 입증한다. 이는 256개의 무작위 생성 중 최적의 응답을 선택했을 때 GSM8K와 MATH 벤치마크에서 각각 97.7%와 72.0%의 인상적인 정확도를 보여준다. 현재 기본 모델의 주요 문제는 내재된 수학적 능력을 일관되게 이끌어내는 데 어려움이 있다는 것이다. 특히, 첫 번째 답변의 정확도는 GSM8K와 MATH 벤치마크에서 각각 49.5%와 7.9%로 떨어진다. 우리는 단순히 SFT 데이터를 확장하는 것만으로도 정답 생성의 신뢰성을 크게 향상시킬 수 있음을 발견했다. 그러나 광범위한 확장의 가능성은 공개적으로 이용 가능한 수학 문제의 부족으로 제한된다. 이러한 한계를 극복하기 위해 우리는 합성 데이터를 사용했으며, 이는 실제 데이터와 거의 동등한 효과를 보이고 약 100만 개의 샘플로 확장할 때도 명확한 포화 현상을 보이지 않는다. 이 간단한 접근 방식은 LLaMA-2 7B 모델을 사용하여 GSM8K에서 82.6%, MATH에서 40.6%의 정확도를 달성하며, 이전 모델을 각각 14.2%와 20.8% 앞선다. 또한, 우리는 다양한 추론 복잡성과 오류 유형에 걸친 확장 행동에 대한 통찰을 제공한다.
English
Mathematical capabilities were previously believed to emerge in common language models only at a very large scale or require extensive math-related pre-training. This paper shows that the LLaMA-2 7B model with common pre-training already exhibits strong mathematical abilities, as evidenced by its impressive accuracy of 97.7% and 72.0% on the GSM8K and MATH benchmarks, respectively, when selecting the best response from 256 random generations. The primary issue with the current base model is the difficulty in consistently eliciting its inherent mathematical capabilities. Notably, the accuracy for the first answer drops to 49.5% and 7.9% on the GSM8K and MATH benchmarks, respectively. We find that simply scaling up the SFT data can significantly enhance the reliability of generating correct answers. However, the potential for extensive scaling is constrained by the scarcity of publicly available math questions. To overcome this limitation, we employ synthetic data, which proves to be nearly as effective as real data and shows no clear saturation when scaled up to approximately one million samples. This straightforward approach achieves an accuracy of 82.6% on GSM8K and 40.6% on MATH using LLaMA-2 7B models, surpassing previous models by 14.2% and 20.8%, respectively. We also provide insights into scaling behaviors across different reasoning complexities and error types.
PDF211December 15, 2024