Eine sorgfältige Untersuchung der Leistung großer Sprachmodelle bei Grundschularithmetik.

papers.abstract

Große Sprachmodelle (LLMs) haben beeindruckende Erfolge bei vielen Benchmarks für mathematisches Denken erzielt. Es gibt jedoch zunehmende Bedenken, dass ein Teil dieser Leistung tatsächlich auf einer Kontamination des Datensatzes beruht, bei der Daten, die den Benchmark-Fragen ähneln, in die Trainingsdaten gelangen, anstatt auf echter Denkfähigkeit. Um diese Behauptung gründlich zu untersuchen, haben wir Grade School Math 1000 (GSM1k) in Auftrag gegeben. GSM1k ist so konzipiert, dass es den Stil und die Komplexität des etablierten GSM8k-Benchmarks widerspiegelt, dem Goldstandard zur Messung elementarer mathematischer Denkfähigkeit. Wir stellen sicher, dass die beiden Benchmarks in wichtigen Metriken wie menschlichen Lösungsraten, Anzahl der Schritte in der Lösung, Antwortgröße und mehr vergleichbar sind. Bei der Bewertung führender Open- und Closed-Source LLMs auf GSM1k beobachten wir Genauigkeitsrückgänge von bis zu 13 %, wobei mehrere Modellfamilien (z. B. Phi und Mistral) Anzeichen für systematisches Overfitting bei fast allen Modellgrößen zeigen. Gleichzeitig zeigen viele Modelle, insbesondere diejenigen an der Spitze (z. B. Gemini/GPT/Claude), minimale Anzeichen von Overfitting. Weitere Analysen legen eine positive Beziehung (Spearman's r^2=0,32) zwischen der Wahrscheinlichkeit eines Modells, ein Beispiel aus GSM8k zu generieren, und der Leistungsdifferenz zwischen GSM8k und GSM1k nahe, was darauf hindeutet, dass viele Modelle GSM8k teilweise auswendig gelernt haben könnten.

English

Large language models (LLMs) have achieved impressive success on many benchmarks for mathematical reasoning. However, there is growing concern that some of this performance actually reflects dataset contamination, where data closely resembling benchmark questions leaks into the training data, instead of true reasoning ability. To investigate this claim rigorously, we commission Grade School Math 1000 (GSM1k). GSM1k is designed to mirror the style and complexity of the established GSM8k benchmark, the gold standard for measuring elementary mathematical reasoning. We ensure that the two benchmarks are comparable across important metrics such as human solve rates, number of steps in solution, answer magnitude, and more. When evaluating leading open- and closed-source LLMs on GSM1k, we observe accuracy drops of up to 13%, with several families of models (e.g., Phi and Mistral) showing evidence of systematic overfitting across almost all model sizes. At the same time, many models, especially those on the frontier, (e.g., Gemini/GPT/Claude) show minimal signs of overfitting. Further analysis suggests a positive relationship (Spearman's r^2=0.32) between a model's probability of generating an example from GSM8k and its performance gap between GSM8k and GSM1k, suggesting that many models may have partially memorized GSM8k.

Eine sorgfältige Untersuchung der Leistung großer Sprachmodelle bei Grundschularithmetik.

A Careful Examination of Large Language Model Performance on Grade School Arithmetic

papers.abstract

Support