Une Analyse Approfondie des Performances des Modèles de Langage à Grande Échelle en Arithmétique de Niveau PrimaireA Careful Examination of Large Language Model Performance on Grade
School Arithmetic
Les grands modèles de langage (LLM) ont obtenu des succès impressionnants sur de nombreux benchmarks de raisonnement mathématique. Cependant, une préoccupation croissante émerge quant au fait qu'une partie de cette performance pourrait refléter une contamination des données, où des données ressemblant étroitement aux questions des benchmarks se retrouvent dans les données d'entraînement, plutôt qu'une véritable capacité de raisonnement. Pour étudier cette affirmation de manière rigoureuse, nous avons créé Grade School Math 1000 (GSM1k). GSM1k est conçu pour refléter le style et la complexité du benchmark établi GSM8k, considéré comme la référence pour mesurer le raisonnement mathématique élémentaire. Nous veillons à ce que les deux benchmarks soient comparables sur des métriques importantes telles que les taux de résolution humaine, le nombre d'étapes dans la solution, l'ampleur des réponses, et plus encore. Lors de l'évaluation des principaux LLM open-source et propriétaires sur GSM1k, nous observons des baisses de précision allant jusqu'à 13 %, avec plusieurs familles de modèles (par exemple, Phi et Mistral) montrant des signes de surajustement systématique pour presque toutes les tailles de modèles. Parallèlement, de nombreux modèles, en particulier ceux à la pointe (par exemple, Gemini/GPT/Claude), montrent des signes minimes de surajustement. Une analyse plus approfondie suggère une relation positive (r² de Spearman = 0,32) entre la probabilité qu'un modèle génère un exemple de GSM8k et son écart de performance entre GSM8k et GSM1k, indiquant que de nombreux modèles pourraient avoir partiellement mémorisé GSM8k.