Modelos de Linguagem Comuns de 7B Já Possuem Fortes Capacidades Matemáticas
Common 7B Language Models Already Possess Strong Math Capabilities
March 7, 2024
Autores: Chen Li, Weiqi Wang, Jingcheng Hu, Yixuan Wei, Nanning Zheng, Han Hu, Zheng Zhang, Houwen Peng
cs.AI
Resumo
Anteriormente, acreditava-se que as capacidades matemáticas emergiam em modelos de linguagem comuns apenas em escalas muito grandes ou exigiam um extenso pré-treinamento relacionado à matemática. Este artigo demonstra que o modelo LLaMA-2 7B com pré-treinamento comum já exibe fortes habilidades matemáticas, evidenciadas por sua impressionante precisão de 97,7% e 72,0% nos benchmarks GSM8K e MATH, respectivamente, ao selecionar a melhor resposta entre 256 gerações aleatórias. O principal problema com o modelo base atual é a dificuldade em eliciar consistentemente suas capacidades matemáticas inerentes. Notavelmente, a precisão da primeira resposta cai para 49,5% e 7,9% nos benchmarks GSM8K e MATH, respectivamente. Descobrimos que simplesmente aumentar os dados de SFT (Supervised Fine-Tuning) pode melhorar significativamente a confiabilidade na geração de respostas corretas. No entanto, o potencial de escalonamento extensivo é limitado pela escassez de questões matemáticas disponíveis publicamente. Para superar essa limitação, empregamos dados sintéticos, que se mostram quase tão eficazes quanto dados reais e não apresentam saturação clara quando escalonados para aproximadamente um milhão de amostras. Essa abordagem simples alcança uma precisão de 82,6% no GSM8K e 40,6% no MATH usando modelos LLaMA-2 7B, superando modelos anteriores em 14,2% e 20,8%, respectivamente. Também fornecemos insights sobre comportamentos de escalonamento em diferentes complexidades de raciocínio e tipos de erro.
English
Mathematical capabilities were previously believed to emerge in common
language models only at a very large scale or require extensive math-related
pre-training. This paper shows that the LLaMA-2 7B model with common
pre-training already exhibits strong mathematical abilities, as evidenced by
its impressive accuracy of 97.7% and 72.0% on the GSM8K and MATH benchmarks,
respectively, when selecting the best response from 256 random generations. The
primary issue with the current base model is the difficulty in consistently
eliciting its inherent mathematical capabilities. Notably, the accuracy for the
first answer drops to 49.5% and 7.9% on the GSM8K and MATH benchmarks,
respectively. We find that simply scaling up the SFT data can significantly
enhance the reliability of generating correct answers. However, the potential
for extensive scaling is constrained by the scarcity of publicly available math
questions. To overcome this limitation, we employ synthetic data, which proves
to be nearly as effective as real data and shows no clear saturation when
scaled up to approximately one million samples. This straightforward approach
achieves an accuracy of 82.6% on GSM8K and 40.6% on MATH using LLaMA-2 7B
models, surpassing previous models by 14.2% and 20.8%, respectively. We also
provide insights into scaling behaviors across different reasoning complexities
and error types.