ChatPaper.aiChatPaper

Gängige 7B-Sprachmodelle verfügen bereits über starke mathematische Fähigkeiten.

Common 7B Language Models Already Possess Strong Math Capabilities

March 7, 2024
Autoren: Chen Li, Weiqi Wang, Jingcheng Hu, Yixuan Wei, Nanning Zheng, Han Hu, Zheng Zhang, Houwen Peng
cs.AI

Zusammenfassung

Mathematische Fähigkeiten wurden bisher angenommen, nur in gängigen Sprachmodellen in sehr großem Maßstab zu entstehen oder umfangreiches mathematikbezogenes Vor-Training zu erfordern. Diese Arbeit zeigt, dass das LLaMA-2 7B-Modell mit gängigem Vor-Training bereits starke mathematische Fähigkeiten aufweist, wie durch seine beeindruckende Genauigkeit von 97,7% und 72,0% bei den GSM8K- und MATH-Benchmarks belegt wird, wenn die beste Antwort aus 256 zufälligen Generationen ausgewählt wird. Das Hauptproblem des aktuellen Basismodells besteht darin, dass es schwierig ist, seine inhärenten mathematischen Fähigkeiten konsistent hervorzurufen. Bemerkenswert ist, dass die Genauigkeit für die erste Antwort auf 49,5% bzw. 7,9% bei den GSM8K- und MATH-Benchmarks sinkt. Wir stellen fest, dass allein durch Skalierung der SFT-Daten die Zuverlässigkeit bei der Generierung korrekter Antworten signifikant verbessert werden kann. Allerdings wird das Potenzial für umfangreiche Skalierung durch die Knappheit öffentlich verfügbarer mathematischer Fragen eingeschränkt. Um diese Einschränkung zu überwinden, verwenden wir synthetische Daten, die sich als nahezu so effektiv wie reale Daten erweisen und keine klare Sättigung aufweisen, wenn sie auf etwa eine Million Proben hochskaliert werden. Dieser einfache Ansatz erzielt eine Genauigkeit von 82,6% bei GSM8K und 40,6% bei MATH unter Verwendung von LLaMA-2 7B-Modellen und übertrifft frühere Modelle um 14,2% bzw. 20,8%. Wir geben auch Einblicke in Skalierungsverhalten bei unterschiedlichen Denkkomplexitäten und Fehlertypen.
English
Mathematical capabilities were previously believed to emerge in common language models only at a very large scale or require extensive math-related pre-training. This paper shows that the LLaMA-2 7B model with common pre-training already exhibits strong mathematical abilities, as evidenced by its impressive accuracy of 97.7% and 72.0% on the GSM8K and MATH benchmarks, respectively, when selecting the best response from 256 random generations. The primary issue with the current base model is the difficulty in consistently eliciting its inherent mathematical capabilities. Notably, the accuracy for the first answer drops to 49.5% and 7.9% on the GSM8K and MATH benchmarks, respectively. We find that simply scaling up the SFT data can significantly enhance the reliability of generating correct answers. However, the potential for extensive scaling is constrained by the scarcity of publicly available math questions. To overcome this limitation, we employ synthetic data, which proves to be nearly as effective as real data and shows no clear saturation when scaled up to approximately one million samples. This straightforward approach achieves an accuracy of 82.6% on GSM8K and 40.6% on MATH using LLaMA-2 7B models, surpassing previous models by 14.2% and 20.8%, respectively. We also provide insights into scaling behaviors across different reasoning complexities and error types.
PDF211December 15, 2024