Raisonnement mathématique dans les grands modèles de langage : Évaluation des erreurs logiques et arithmétiques sur de larges plages numériques
Mathematical Reasoning in Large Language Models: Assessing Logical and Arithmetic Errors across Wide Numerical Ranges
February 12, 2025
Auteurs: Safal Shrestha, Minwu Kim, Keith Ross
cs.AI
Résumé
Le raisonnement mathématique dans les Grands Modèles de Langage (GML) est souvent évalué à l'aide de références avec des plages numériques limitées, ne reflétant pas la résolution de problèmes du monde réel à travers des échelles diverses. De plus, la plupart des méthodes d'évaluation existantes comparent uniquement les sorties du modèle aux réponses réelles, obscurcissant ainsi les informations sur les processus de raisonnement. Pour remédier à ces limitations, nous introduisons GSM-Ranges, un générateur de jeux de données dérivé de GSM8K qui perturbe systématiquement les valeurs numériques dans les problèmes mathématiques pour évaluer la robustesse du modèle à travers différentes échelles numériques. De plus, nous proposons une nouvelle méthodologie de notation qui distingue entre les erreurs logiques et non logiques, offrant une évaluation plus précise des processus de raisonnement au-delà de la précision computationnelle. Nos expériences avec différents modèles révèlent une augmentation significative des taux d'erreurs logiques - jusqu'à 14 points de pourcentage - à mesure que la complexité numérique augmente, démontrant une faiblesse générale dans le raisonnement avec des valeurs numériques hors distribution. De plus, bien que les modèles montrent une grande précision dans les tâches arithmétiques autonomes, leurs performances se détériorent considérablement lorsque les calculs sont intégrés dans des problèmes en langage naturel. Ces résultats fournissent une évaluation complète des capacités de raisonnement mathématique des GML et orientent les futures directions de recherche pour améliorer la généralisation numérique dans les modèles de langage.
English
Mathematical reasoning in Large Language Models (LLMs) is often evaluated
using benchmarks with limited numerical ranges, failing to reflect real-world
problem-solving across diverse scales. Furthermore, most existing evaluation
methods only compare model outputs to ground-truth answers, obscuring insights
into reasoning processes. To address these limitations, we introduce
GSM-Ranges, a dataset generator derived from GSM8K that systematically perturbs
numerical values in math problems to assess model robustness across varying
numerical scales. Additionally, we propose a novel grading methodology that
distinguishes between logical and non-logical errors, offering a more precise
evaluation of reasoning processes beyond computational accuracy. Our
experiments with various models reveal a significant increase in logical error
rates-up to 14 percentage points-as numerical complexity rises, demonstrating a
general weakness in reasoning with out-of-distribution numerical values.
Moreover, while models demonstrate high accuracy on standalone arithmetic
tasks, their performance deteriorates substantially when computations are
embedded within word problems. These findings provide a comprehensive
evaluation of LLMs' mathematical reasoning capabilities and inform future
research directions for improving numerical generalization in language models.Summary
AI-Generated Summary