Eine sorgfältige Untersuchung der Leistung großer Sprachmodelle bei Grundschularithmetik.
A Careful Examination of Large Language Model Performance on Grade School Arithmetic
May 1, 2024
papers.authors: Hugh Zhang, Jeff Da, Dean Lee, Vaughn Robinson, Catherine Wu, Will Song, Tiffany Zhao, Pranav Raja, Dylan Slack, Qin Lyu, Sean Hendryx, Russell Kaplan, Michele, Lunati, Summer Yue
cs.AI
papers.abstract
Große Sprachmodelle (LLMs) haben beeindruckende Erfolge bei vielen Benchmarks für mathematisches Denken erzielt. Es gibt jedoch zunehmende Bedenken, dass ein Teil dieser Leistung tatsächlich auf einer Kontamination des Datensatzes beruht, bei der Daten, die den Benchmark-Fragen ähneln, in die Trainingsdaten gelangen, anstatt auf echter Denkfähigkeit. Um diese Behauptung gründlich zu untersuchen, haben wir Grade School Math 1000 (GSM1k) in Auftrag gegeben. GSM1k ist so konzipiert, dass es den Stil und die Komplexität des etablierten GSM8k-Benchmarks widerspiegelt, dem Goldstandard zur Messung elementarer mathematischer Denkfähigkeit. Wir stellen sicher, dass die beiden Benchmarks in wichtigen Metriken wie menschlichen Lösungsraten, Anzahl der Schritte in der Lösung, Antwortgröße und mehr vergleichbar sind. Bei der Bewertung führender Open- und Closed-Source LLMs auf GSM1k beobachten wir Genauigkeitsrückgänge von bis zu 13 %, wobei mehrere Modellfamilien (z. B. Phi und Mistral) Anzeichen für systematisches Overfitting bei fast allen Modellgrößen zeigen. Gleichzeitig zeigen viele Modelle, insbesondere diejenigen an der Spitze (z. B. Gemini/GPT/Claude), minimale Anzeichen von Overfitting. Weitere Analysen legen eine positive Beziehung (Spearman's r^2=0,32) zwischen der Wahrscheinlichkeit eines Modells, ein Beispiel aus GSM8k zu generieren, und der Leistungsdifferenz zwischen GSM8k und GSM1k nahe, was darauf hindeutet, dass viele Modelle GSM8k teilweise auswendig gelernt haben könnten.
English
Large language models (LLMs) have achieved impressive success on many
benchmarks for mathematical reasoning. However, there is growing concern that
some of this performance actually reflects dataset contamination, where data
closely resembling benchmark questions leaks into the training data, instead of
true reasoning ability. To investigate this claim rigorously, we commission
Grade School Math 1000 (GSM1k). GSM1k is designed to mirror the style and
complexity of the established GSM8k benchmark, the gold standard for measuring
elementary mathematical reasoning. We ensure that the two benchmarks are
comparable across important metrics such as human solve rates, number of steps
in solution, answer magnitude, and more. When evaluating leading open- and
closed-source LLMs on GSM1k, we observe accuracy drops of up to 13%, with
several families of models (e.g., Phi and Mistral) showing evidence of
systematic overfitting across almost all model sizes. At the same time, many
models, especially those on the frontier, (e.g., Gemini/GPT/Claude) show
minimal signs of overfitting. Further analysis suggests a positive relationship
(Spearman's r^2=0.32) between a model's probability of generating an example
from GSM8k and its performance gap between GSM8k and GSM1k, suggesting that
many models may have partially memorized GSM8k.