I modelli linguistici comuni da 7B possiedono già forti capacità matematiche.

Abstract

Si credeva che le capacità matematiche emergessero nei modelli linguistici comuni solo su scala molto ampia o richiedessero un pre-addestramento estensivo in ambito matematico. Questo articolo dimostra che il modello LLaMA-2 7B, con un pre-addestramento comune, mostra già forti abilità matematiche, come evidenziato dalla sua impressionante accuratezza del 97,7% e del 72,0% sui benchmark GSM8K e MATH, rispettivamente, quando si seleziona la migliore risposta tra 256 generazioni casuali. Il problema principale del modello base attuale è la difficoltà di elicitare in modo coerente le sue capacità matematiche intrinseche. In particolare, l'accuratezza per la prima risposta scende al 49,5% e al 7,9% sui benchmark GSM8K e MATH, rispettivamente. Scopriamo che semplicemente aumentando i dati SFT si può migliorare significativamente l'affidabilità nella generazione di risposte corrette. Tuttavia, il potenziale per un'estensione su larga scala è limitato dalla scarsità di domande matematiche disponibili pubblicamente. Per superare questa limitazione, utilizziamo dati sintetici, che si dimostrano quasi altrettanto efficaci dei dati reali e non mostrano una chiara saturazione quando vengono scalati fino a circa un milione di campioni. Questo approccio semplice raggiunge un'accuratezza dell'82,6% su GSM8K e del 40,6% su MATH utilizzando i modelli LLaMA-2 7B, superando i modelli precedenti del 14,2% e del 20,8%, rispettivamente. Forniamo inoltre approfondimenti sui comportamenti di scalabilità attraverso diverse complessità di ragionamento e tipi di errore.

English

Mathematical capabilities were previously believed to emerge in common language models only at a very large scale or require extensive math-related pre-training. This paper shows that the LLaMA-2 7B model with common pre-training already exhibits strong mathematical abilities, as evidenced by its impressive accuracy of 97.7% and 72.0% on the GSM8K and MATH benchmarks, respectively, when selecting the best response from 256 random generations. The primary issue with the current base model is the difficulty in consistently eliciting its inherent mathematical capabilities. Notably, the accuracy for the first answer drops to 49.5% and 7.9% on the GSM8K and MATH benchmarks, respectively. We find that simply scaling up the SFT data can significantly enhance the reliability of generating correct answers. However, the potential for extensive scaling is constrained by the scarcity of publicly available math questions. To overcome this limitation, we employ synthetic data, which proves to be nearly as effective as real data and shows no clear saturation when scaled up to approximately one million samples. This straightforward approach achieves an accuracy of 82.6% on GSM8K and 40.6% on MATH using LLaMA-2 7B models, surpassing previous models by 14.2% and 20.8%, respectively. We also provide insights into scaling behaviors across different reasoning complexities and error types.

I modelli linguistici comuni da 7B possiedono già forti capacità matematiche.

Common 7B Language Models Already Possess Strong Math Capabilities

Abstract

Support