Eine sorgfältige Untersuchung der Leistung großer Sprachmodelle bei Grundschularithmetik.A Careful Examination of Large Language Model Performance on Grade
School Arithmetic
Große Sprachmodelle (LLMs) haben beeindruckende Erfolge bei vielen Benchmarks für mathematisches Denken erzielt. Es gibt jedoch zunehmende Bedenken, dass ein Teil dieser Leistung tatsächlich auf einer Kontamination des Datensatzes beruht, bei der Daten, die den Benchmark-Fragen ähneln, in die Trainingsdaten gelangen, anstatt auf echter Denkfähigkeit. Um diese Behauptung gründlich zu untersuchen, haben wir Grade School Math 1000 (GSM1k) in Auftrag gegeben. GSM1k ist so konzipiert, dass es den Stil und die Komplexität des etablierten GSM8k-Benchmarks widerspiegelt, dem Goldstandard zur Messung elementarer mathematischer Denkfähigkeit. Wir stellen sicher, dass die beiden Benchmarks in wichtigen Metriken wie menschlichen Lösungsraten, Anzahl der Schritte in der Lösung, Antwortgröße und mehr vergleichbar sind. Bei der Bewertung führender Open- und Closed-Source LLMs auf GSM1k beobachten wir Genauigkeitsrückgänge von bis zu 13 %, wobei mehrere Modellfamilien (z. B. Phi und Mistral) Anzeichen für systematisches Overfitting bei fast allen Modellgrößen zeigen. Gleichzeitig zeigen viele Modelle, insbesondere diejenigen an der Spitze (z. B. Gemini/GPT/Claude), minimale Anzeichen von Overfitting. Weitere Analysen legen eine positive Beziehung (Spearman's r^2=0,32) zwischen der Wahrscheinlichkeit eines Modells, ein Beispiel aus GSM8k zu generieren, und der Leistungsdifferenz zwischen GSM8k und GSM1k nahe, was darauf hindeutet, dass viele Modelle GSM8k teilweise auswendig gelernt haben könnten.