Ragionamento Matematico nei Grandi Modelli Linguistici: Valutazione degli Errori Logici e Aritmetici su Vaste Gamma Numeriche
Mathematical Reasoning in Large Language Models: Assessing Logical and Arithmetic Errors across Wide Numerical Ranges
February 12, 2025
Autori: Safal Shrestha, Minwu Kim, Keith Ross
cs.AI
Abstract
Il ragionamento matematico nei Grandi Modelli Linguistici (LLM) è spesso valutato utilizzando benchmark con intervalli numerici limitati, non riflettendo così la risoluzione di problemi del mondo reale su diverse scale. Inoltre, la maggior parte dei metodi di valutazione esistenti confronta solo le uscite del modello con le risposte vere, oscurando così le intuizioni nei processi di ragionamento. Per affrontare queste limitazioni, introduciamo GSM-Ranges, un generatore di dataset derivato da GSM8K che perturba sistematicamente i valori numerici nei problemi matematici per valutare la robustezza del modello su diverse scale numeriche. Inoltre, proponiamo una nuova metodologia di valutazione che distingue tra errori logici e non logici, offrendo una valutazione più precisa dei processi di ragionamento al di là dell'accuratezza computazionale. I nostri esperimenti con vari modelli rivelano un significativo aumento dei tassi di errori logici - fino a 14 punti percentuali - all'aumentare della complessità numerica, dimostrando una debolezza generale nel ragionamento con valori numerici fuori distribuzione. Inoltre, mentre i modelli mostrano un'alta accuratezza su compiti aritmetici autonomi, le loro prestazioni peggiorano notevolmente quando i calcoli sono incorporati in problemi di testo. Queste scoperte forniscono una valutazione completa delle capacità di ragionamento matematico dei LLM e orientano le future direzioni di ricerca per migliorare la generalizzazione numerica nei modelli linguistici.
English
Mathematical reasoning in Large Language Models (LLMs) is often evaluated
using benchmarks with limited numerical ranges, failing to reflect real-world
problem-solving across diverse scales. Furthermore, most existing evaluation
methods only compare model outputs to ground-truth answers, obscuring insights
into reasoning processes. To address these limitations, we introduce
GSM-Ranges, a dataset generator derived from GSM8K that systematically perturbs
numerical values in math problems to assess model robustness across varying
numerical scales. Additionally, we propose a novel grading methodology that
distinguishes between logical and non-logical errors, offering a more precise
evaluation of reasoning processes beyond computational accuracy. Our
experiments with various models reveal a significant increase in logical error
rates-up to 14 percentage points-as numerical complexity rises, demonstrating a
general weakness in reasoning with out-of-distribution numerical values.
Moreover, while models demonstrate high accuracy on standalone arithmetic
tasks, their performance deteriorates substantially when computations are
embedded within word problems. These findings provide a comprehensive
evaluation of LLMs' mathematical reasoning capabilities and inform future
research directions for improving numerical generalization in language models.Summary
AI-Generated Summary