Une Analyse Approfondie des Performances des Modèles de Langage à Grande Échelle en Arithmétique de Niveau Primaire
A Careful Examination of Large Language Model Performance on Grade School Arithmetic
May 1, 2024
Auteurs: Hugh Zhang, Jeff Da, Dean Lee, Vaughn Robinson, Catherine Wu, Will Song, Tiffany Zhao, Pranav Raja, Dylan Slack, Qin Lyu, Sean Hendryx, Russell Kaplan, Michele, Lunati, Summer Yue
cs.AI
Résumé
Les grands modèles de langage (LLM) ont obtenu des succès impressionnants sur de nombreux benchmarks de raisonnement mathématique. Cependant, une préoccupation croissante émerge quant au fait qu'une partie de cette performance pourrait refléter une contamination des données, où des données ressemblant étroitement aux questions des benchmarks se retrouvent dans les données d'entraînement, plutôt qu'une véritable capacité de raisonnement. Pour étudier cette affirmation de manière rigoureuse, nous avons créé Grade School Math 1000 (GSM1k). GSM1k est conçu pour refléter le style et la complexité du benchmark établi GSM8k, considéré comme la référence pour mesurer le raisonnement mathématique élémentaire. Nous veillons à ce que les deux benchmarks soient comparables sur des métriques importantes telles que les taux de résolution humaine, le nombre d'étapes dans la solution, l'ampleur des réponses, et plus encore. Lors de l'évaluation des principaux LLM open-source et propriétaires sur GSM1k, nous observons des baisses de précision allant jusqu'à 13 %, avec plusieurs familles de modèles (par exemple, Phi et Mistral) montrant des signes de surajustement systématique pour presque toutes les tailles de modèles. Parallèlement, de nombreux modèles, en particulier ceux à la pointe (par exemple, Gemini/GPT/Claude), montrent des signes minimes de surajustement. Une analyse plus approfondie suggère une relation positive (r² de Spearman = 0,32) entre la probabilité qu'un modèle génère un exemple de GSM8k et son écart de performance entre GSM8k et GSM1k, indiquant que de nombreux modèles pourraient avoir partiellement mémorisé GSM8k.
English
Large language models (LLMs) have achieved impressive success on many
benchmarks for mathematical reasoning. However, there is growing concern that
some of this performance actually reflects dataset contamination, where data
closely resembling benchmark questions leaks into the training data, instead of
true reasoning ability. To investigate this claim rigorously, we commission
Grade School Math 1000 (GSM1k). GSM1k is designed to mirror the style and
complexity of the established GSM8k benchmark, the gold standard for measuring
elementary mathematical reasoning. We ensure that the two benchmarks are
comparable across important metrics such as human solve rates, number of steps
in solution, answer magnitude, and more. When evaluating leading open- and
closed-source LLMs on GSM1k, we observe accuracy drops of up to 13%, with
several families of models (e.g., Phi and Mistral) showing evidence of
systematic overfitting across almost all model sizes. At the same time, many
models, especially those on the frontier, (e.g., Gemini/GPT/Claude) show
minimal signs of overfitting. Further analysis suggests a positive relationship
(Spearman's r^2=0.32) between a model's probability of generating an example
from GSM8k and its performance gap between GSM8k and GSM1k, suggesting that
many models may have partially memorized GSM8k.Summary
AI-Generated Summary