Gangbare 7B-taalmodellen beschikken al over sterke wiskundige vaardigheden.
Common 7B Language Models Already Possess Strong Math Capabilities
March 7, 2024
Auteurs: Chen Li, Weiqi Wang, Jingcheng Hu, Yixuan Wei, Nanning Zheng, Han Hu, Zheng Zhang, Houwen Peng
cs.AI
Samenvatting
Wiskundige vaardigheden werden voorheen verondersteld alleen op zeer grote schaal te ontstaan in gangbare taalmodel of uitgebreide wiskundige voorafgaande training te vereisen. Dit artikel toont aan dat het LLaMA-2 7B-model met standaard voorafgaande training al sterke wiskundige vaardigheden vertoont, zoals blijkt uit de indrukwekkende nauwkeurigheid van 97,7% en 72,0% op respectievelijk de GSM8K- en MATH-benchmarks, wanneer het beste antwoord wordt geselecteerd uit 256 willekeurige generaties. Het belangrijkste probleem met het huidige basismodel is de moeilijkheid om de inherente wiskundige vaardigheden consistent naar voren te brengen. Opmerkelijk is dat de nauwkeurigheid voor het eerste antwoord daalt tot 49,5% en 7,9% op respectievelijk de GSM8K- en MATH-benchmarks. We ontdekken dat het simpelweg opschalen van de SFT-gegevens de betrouwbaarheid van het genereren van correcte antwoorden aanzienlijk kan verbeteren. Het potentieel voor uitgebreide opschaling wordt echter beperkt door de schaarste van publiek beschikbare wiskundevragen. Om deze beperking te overwinnen, gebruiken we synthetische gegevens, die bijna net zo effectief blijken te zijn als echte gegevens en geen duidelijke verzadiging vertonen wanneer ze worden opgeschaald tot ongeveer één miljoen voorbeelden. Deze eenvoudige aanpak bereikt een nauwkeurigheid van 82,6% op GSM8K en 40,6% op MATH met LLaMA-2 7B-modellen, wat respectievelijk 14,2% en 20,8% hoger is dan eerdere modellen. We bieden ook inzichten in schaalgedrag over verschillende redeneercomplexiteiten en fouttypen.
English
Mathematical capabilities were previously believed to emerge in common
language models only at a very large scale or require extensive math-related
pre-training. This paper shows that the LLaMA-2 7B model with common
pre-training already exhibits strong mathematical abilities, as evidenced by
its impressive accuracy of 97.7% and 72.0% on the GSM8K and MATH benchmarks,
respectively, when selecting the best response from 256 random generations. The
primary issue with the current base model is the difficulty in consistently
eliciting its inherent mathematical capabilities. Notably, the accuracy for the
first answer drops to 49.5% and 7.9% on the GSM8K and MATH benchmarks,
respectively. We find that simply scaling up the SFT data can significantly
enhance the reliability of generating correct answers. However, the potential
for extensive scaling is constrained by the scarcity of publicly available math
questions. To overcome this limitation, we employ synthetic data, which proves
to be nearly as effective as real data and shows no clear saturation when
scaled up to approximately one million samples. This straightforward approach
achieves an accuracy of 82.6% on GSM8K and 40.6% on MATH using LLaMA-2 7B
models, surpassing previous models by 14.2% and 20.8%, respectively. We also
provide insights into scaling behaviors across different reasoning complexities
and error types.