Los modelos de lenguaje comunes de 7B ya poseen capacidades matemáticas sólidas.
Common 7B Language Models Already Possess Strong Math Capabilities
March 7, 2024
Autores: Chen Li, Weiqi Wang, Jingcheng Hu, Yixuan Wei, Nanning Zheng, Han Hu, Zheng Zhang, Houwen Peng
cs.AI
Resumen
Anteriormente se creía que las capacidades matemáticas emergían en los modelos de lenguaje comunes solo a una escala muy grande o requerían un extenso pre-entrenamiento en matemáticas. Este artículo demuestra que el modelo LLaMA-2 7B con un pre-entrenamiento común ya exhibe fuertes habilidades matemáticas, como lo evidencia su impresionante precisión del 97,7% y 72,0% en los benchmarks GSM8K y MATH, respectivamente, al seleccionar la mejor respuesta de 256 generaciones aleatorias. El principal problema con el modelo base actual es la dificultad para elicitar consistentemente sus capacidades matemáticas inherentes. Notablemente, la precisión de la primera respuesta cae al 49,5% y 7,9% en los benchmarks GSM8K y MATH, respectivamente. Encontramos que simplemente escalar los datos de SFT puede mejorar significativamente la confiabilidad de generar respuestas correctas. Sin embargo, el potencial para un escalamiento extenso está limitado por la escasez de preguntas matemáticas disponibles públicamente. Para superar esta limitación, empleamos datos sintéticos, los cuales resultan ser casi tan efectivos como los datos reales y no muestran una clara saturación cuando se escalan hasta aproximadamente un millón de muestras. Este enfoque sencillo logra una precisión del 82,6% en GSM8K y 40,6% en MATH utilizando modelos LLaMA-2 7B, superando a los modelos anteriores en un 14,2% y 20,8%, respectivamente. También proporcionamos insights sobre los comportamientos de escalamiento en diferentes complejidades de razonamiento y tipos de errores.
English
Mathematical capabilities were previously believed to emerge in common
language models only at a very large scale or require extensive math-related
pre-training. This paper shows that the LLaMA-2 7B model with common
pre-training already exhibits strong mathematical abilities, as evidenced by
its impressive accuracy of 97.7% and 72.0% on the GSM8K and MATH benchmarks,
respectively, when selecting the best response from 256 random generations. The
primary issue with the current base model is the difficulty in consistently
eliciting its inherent mathematical capabilities. Notably, the accuracy for the
first answer drops to 49.5% and 7.9% on the GSM8K and MATH benchmarks,
respectively. We find that simply scaling up the SFT data can significantly
enhance the reliability of generating correct answers. However, the potential
for extensive scaling is constrained by the scarcity of publicly available math
questions. To overcome this limitation, we employ synthetic data, which proves
to be nearly as effective as real data and shows no clear saturation when
scaled up to approximately one million samples. This straightforward approach
achieves an accuracy of 82.6% on GSM8K and 40.6% on MATH using LLaMA-2 7B
models, surpassing previous models by 14.2% and 20.8%, respectively. We also
provide insights into scaling behaviors across different reasoning complexities
and error types.