TinyGSM: Erreichen von über 80 % auf GSM8k mit kleinen Sprachmodellen

papers.abstract

Kleinere Modelle bieten verschiedene rechnerische Vorteile, doch inwieweit die Größe für die Problemlösungsfähigkeiten entscheidend ist, bleibt eine offene Frage. Insbesondere für das Lösen von Mathematikaufgaben der Grundschule liegt die bisher kleinste Modellgröße, die erforderlich ist, um die 80\%-Marke auf dem GSM8K-Benchmark zu überschreiten, bei 34B. Unsere Arbeit untersucht, wie hochwertige Datensätze der Schlüssel für kleine Sprachmodelle sein könnten, um mathematisches Denken zu erlernen. Wir stellen TinyGSM vor, einen synthetischen Datensatz von 12,3 Millionen Mathematikaufgaben der Grundschule, die mit Python-Lösungen gepaart sind und vollständig von GPT-3.5 generiert wurden. Nach dem Feinabstimmen auf TinyGSM stellen wir fest, dass ein Duo aus einem 1,3B-Generierungsmodell und einem 1,3B-Verifizierermodell eine Genauigkeit von 81,5\% erreichen kann, was bestehende Modelle, die um Größenordnungen größer sind, übertrifft. Dies steht auch im Wettbewerb mit der Leistung des GPT-3.5-„Lehrer“-Modells (77,4\%), aus dem die Trainingsdaten unseres Modells generiert wurden. Unser Ansatz ist einfach und besteht aus zwei Schlüsselkomponenten: 1) dem hochwertigen Datensatz TinyGSM, 2) der Verwendung eines Verifizierers, der die endgültigen Ausgaben aus mehreren Kandidatengenerierungen auswählt.

English

Small-scale models offer various computational advantages, and yet to which extent size is critical for problem-solving abilities remains an open question. Specifically for solving grade school math, the smallest model size so far required to break the 80\% barrier on the GSM8K benchmark remains to be 34B. Our work studies how high-quality datasets may be the key for small language models to acquire mathematical reasoning. We introduce TinyGSM, a synthetic dataset of 12.3M grade school math problems paired with Python solutions, generated fully by GPT-3.5. After finetuning on TinyGSM, we find that a duo of a 1.3B generation model and a 1.3B verifier model can achieve 81.5\% accuracy, outperforming existing models that are orders of magnitude larger. This also rivals the performance of the GPT-3.5 ``teacher'' model (77.4\%), from which our model's training data is generated. Our approach is simple and has two key components: 1) the high-quality dataset TinyGSM, 2) the use of a verifier, which selects the final outputs from multiple candidate generations.

TinyGSM: Erreichen von über 80 % auf GSM8k mit kleinen Sprachmodellen

TinyGSM: achieving >80% on GSM8k with small language models

papers.abstract

Support