ChatPaper.aiChatPaper

Een Grondige Analyse van de Prestaties van Grote Taalmodellen op Rekenen op Basisschoolniveau

A Careful Examination of Large Language Model Performance on Grade School Arithmetic

May 1, 2024
Auteurs: Hugh Zhang, Jeff Da, Dean Lee, Vaughn Robinson, Catherine Wu, Will Song, Tiffany Zhao, Pranav Raja, Dylan Slack, Qin Lyu, Sean Hendryx, Russell Kaplan, Michele, Lunati, Summer Yue
cs.AI

Samenvatting

Grote taalmmodellen (LLMs) hebben indrukwekkende successen behaald op veel benchmarks voor wiskundig redeneren. Er is echter een groeiende bezorgdheid dat een deel van deze prestaties eigenlijk datasetvervuiling weerspiegelt, waarbij gegevens die sterk lijken op benchmarkvragen in de trainingsdata terechtkomen, in plaats van een echt redeneervermogen. Om deze bewering rigoureus te onderzoeken, hebben we Grade School Math 1000 (GSM1k) ontwikkeld. GSM1k is ontworpen om de stijl en complexiteit van de gevestigde GSM8k-benchmark, de gouden standaard voor het meten van elementair wiskundig redeneren, te weerspiegelen. We zorgen ervoor dat de twee benchmarks vergelijkbaar zijn op belangrijke metrieken zoals menselijke oplossingspercentages, aantal stappen in de oplossing, grootte van het antwoord, en meer. Bij het evalueren van toonaangevende open- en closed-source LLMs op GSM1k, observeren we nauwkeurigheidsdalingen tot wel 13%, waarbij verschillende modelfamilies (bijv. Phi en Mistral) tekenen van systematische overfitting vertonen bij bijna alle modelgroottes. Tegelijkertijd vertonen veel modellen, vooral die aan de frontlinie (bijv. Gemini/GPT/Claude), minimale tekenen van overfitting. Verdere analyse suggereert een positieve relatie (Spearman's r^2=0.32) tussen de kans van een model om een voorbeeld uit GSM8k te genereren en de prestatiekloof tussen GSM8k en GSM1k, wat erop wijst dat veel modellen GSM8k mogelijk gedeeltelijk hebben gememoriseerd.
English
Large language models (LLMs) have achieved impressive success on many benchmarks for mathematical reasoning. However, there is growing concern that some of this performance actually reflects dataset contamination, where data closely resembling benchmark questions leaks into the training data, instead of true reasoning ability. To investigate this claim rigorously, we commission Grade School Math 1000 (GSM1k). GSM1k is designed to mirror the style and complexity of the established GSM8k benchmark, the gold standard for measuring elementary mathematical reasoning. We ensure that the two benchmarks are comparable across important metrics such as human solve rates, number of steps in solution, answer magnitude, and more. When evaluating leading open- and closed-source LLMs on GSM1k, we observe accuracy drops of up to 13%, with several families of models (e.g., Phi and Mistral) showing evidence of systematic overfitting across almost all model sizes. At the same time, many models, especially those on the frontier, (e.g., Gemini/GPT/Claude) show minimal signs of overfitting. Further analysis suggests a positive relationship (Spearman's r^2=0.32) between a model's probability of generating an example from GSM8k and its performance gap between GSM8k and GSM1k, suggesting that many models may have partially memorized GSM8k.
PDF332February 8, 2026