TinyGSM: Erreichen von über 80 % auf GSM8k mit kleinen Sprachmodellen
TinyGSM: achieving >80% on GSM8k with small language models
December 14, 2023
Autoren: Bingbin Liu, Sebastien Bubeck, Ronen Eldan, Janardhan Kulkarni, Yuanzhi Li, Anh Nguyen, Rachel Ward, Yi Zhang
cs.AI
Zusammenfassung
Kleinere Modelle bieten verschiedene rechnerische Vorteile, doch inwieweit die Größe für die Problemlösungsfähigkeiten entscheidend ist, bleibt eine offene Frage. Insbesondere für das Lösen von Mathematikaufgaben der Grundschule liegt die bisher kleinste Modellgröße, die erforderlich ist, um die 80\%-Marke auf dem GSM8K-Benchmark zu überschreiten, bei 34B. Unsere Arbeit untersucht, wie hochwertige Datensätze der Schlüssel für kleine Sprachmodelle sein könnten, um mathematisches Denken zu erlernen. Wir stellen TinyGSM vor, einen synthetischen Datensatz von 12,3 Millionen Mathematikaufgaben der Grundschule, die mit Python-Lösungen gepaart sind und vollständig von GPT-3.5 generiert wurden. Nach dem Feinabstimmen auf TinyGSM stellen wir fest, dass ein Duo aus einem 1,3B-Generierungsmodell und einem 1,3B-Verifizierermodell eine Genauigkeit von 81,5\% erreichen kann, was bestehende Modelle, die um Größenordnungen größer sind, übertrifft. Dies steht auch im Wettbewerb mit der Leistung des GPT-3.5-„Lehrer“-Modells (77,4\%), aus dem die Trainingsdaten unseres Modells generiert wurden. Unser Ansatz ist einfach und besteht aus zwei Schlüsselkomponenten: 1) dem hochwertigen Datensatz TinyGSM, 2) der Verwendung eines Verifizierers, der die endgültigen Ausgaben aus mehreren Kandidatengenerierungen auswählt.
English
Small-scale models offer various computational advantages, and yet to which
extent size is critical for problem-solving abilities remains an open question.
Specifically for solving grade school math, the smallest model size so far
required to break the 80\% barrier on the GSM8K benchmark remains to be 34B.
Our work studies how high-quality datasets may be the key for small language
models to acquire mathematical reasoning. We introduce TinyGSM, a
synthetic dataset of 12.3M grade school math problems paired with Python
solutions, generated fully by GPT-3.5. After finetuning on TinyGSM, we
find that a duo of a 1.3B generation model and a 1.3B verifier model can
achieve 81.5\% accuracy, outperforming existing models that are orders of
magnitude larger. This also rivals the performance of the GPT-3.5 ``teacher''
model (77.4\%), from which our model's training data is generated. Our approach
is simple and has two key components: 1) the high-quality dataset
TinyGSM, 2) the use of a verifier, which selects the final outputs
from multiple candidate generations.