Een Grondige Analyse van de Prestaties van Grote Taalmodellen op Rekenen op Basisschoolniveau
A Careful Examination of Large Language Model Performance on Grade School Arithmetic
May 1, 2024
Auteurs: Hugh Zhang, Jeff Da, Dean Lee, Vaughn Robinson, Catherine Wu, Will Song, Tiffany Zhao, Pranav Raja, Dylan Slack, Qin Lyu, Sean Hendryx, Russell Kaplan, Michele, Lunati, Summer Yue
cs.AI
Samenvatting
Grote taalmmodellen (LLMs) hebben indrukwekkende successen behaald op veel benchmarks voor wiskundig redeneren. Er is echter een groeiende bezorgdheid dat een deel van deze prestaties eigenlijk datasetvervuiling weerspiegelt, waarbij gegevens die sterk lijken op benchmarkvragen in de trainingsdata terechtkomen, in plaats van een echt redeneervermogen. Om deze bewering rigoureus te onderzoeken, hebben we Grade School Math 1000 (GSM1k) ontwikkeld. GSM1k is ontworpen om de stijl en complexiteit van de gevestigde GSM8k-benchmark, de gouden standaard voor het meten van elementair wiskundig redeneren, te weerspiegelen. We zorgen ervoor dat de twee benchmarks vergelijkbaar zijn op belangrijke metrieken zoals menselijke oplossingspercentages, aantal stappen in de oplossing, grootte van het antwoord, en meer. Bij het evalueren van toonaangevende open- en closed-source LLMs op GSM1k, observeren we nauwkeurigheidsdalingen tot wel 13%, waarbij verschillende modelfamilies (bijv. Phi en Mistral) tekenen van systematische overfitting vertonen bij bijna alle modelgroottes. Tegelijkertijd vertonen veel modellen, vooral die aan de frontlinie (bijv. Gemini/GPT/Claude), minimale tekenen van overfitting. Verdere analyse suggereert een positieve relatie (Spearman's r^2=0.32) tussen de kans van een model om een voorbeeld uit GSM8k te genereren en de prestatiekloof tussen GSM8k en GSM1k, wat erop wijst dat veel modellen GSM8k mogelijk gedeeltelijk hebben gememoriseerd.
English
Large language models (LLMs) have achieved impressive success on many
benchmarks for mathematical reasoning. However, there is growing concern that
some of this performance actually reflects dataset contamination, where data
closely resembling benchmark questions leaks into the training data, instead of
true reasoning ability. To investigate this claim rigorously, we commission
Grade School Math 1000 (GSM1k). GSM1k is designed to mirror the style and
complexity of the established GSM8k benchmark, the gold standard for measuring
elementary mathematical reasoning. We ensure that the two benchmarks are
comparable across important metrics such as human solve rates, number of steps
in solution, answer magnitude, and more. When evaluating leading open- and
closed-source LLMs on GSM1k, we observe accuracy drops of up to 13%, with
several families of models (e.g., Phi and Mistral) showing evidence of
systematic overfitting across almost all model sizes. At the same time, many
models, especially those on the frontier, (e.g., Gemini/GPT/Claude) show
minimal signs of overfitting. Further analysis suggests a positive relationship
(Spearman's r^2=0.32) between a model's probability of generating an example
from GSM8k and its performance gap between GSM8k and GSM1k, suggesting that
many models may have partially memorized GSM8k.