Mathematisches Denken in großen Sprachmodellen: Bewertung logischer und arithmetischer Fehler über weite Zahlenbereiche
Mathematical Reasoning in Large Language Models: Assessing Logical and Arithmetic Errors across Wide Numerical Ranges
February 12, 2025
Autoren: Safal Shrestha, Minwu Kim, Keith Ross
cs.AI
Zusammenfassung
Die mathematische Argumentation in Large Language Models (LLMs) wird oft anhand von Benchmarks mit begrenzten numerischen Bereichen bewertet, die es versäumen, Problemlösungen in verschiedenen Maßstäben der realen Welt widerzuspiegeln. Darüber hinaus vergleichen die meisten bestehenden Bewertungsmethoden nur die Modellausgaben mit den richtigen Antworten, was Einblicke in die Argumentationsprozesse verschleiert. Um diese Einschränkungen zu überwinden, stellen wir GSM-Ranges vor, einen Datensatzgenerator, der aus GSM8K abgeleitet ist und systematisch numerische Werte in mathematischen Problemen verändert, um die Modellrobustheit über verschiedene numerische Skalen hinweg zu bewerten. Darüber hinaus schlagen wir eine neue Bewertungsmethodik vor, die zwischen logischen und nicht-logischen Fehlern unterscheidet und so eine präzisere Bewertung der Argumentationsprozesse jenseits der Rechenrichtigkeit ermöglicht. Unsere Experimente mit verschiedenen Modellen zeigen eine signifikante Zunahme der logischen Fehlerquoten um bis zu 14 Prozentpunkte, wenn die numerische Komplexität steigt, was eine allgemeine Schwäche im Argumentieren mit numerischen Werten außerhalb der Verteilung zeigt. Darüber hinaus, während Modelle eine hohe Genauigkeit bei eigenständigen arithmetischen Aufgaben aufweisen, verschlechtert sich ihre Leistung erheblich, wenn Berechnungen in Wortprobleme eingebettet sind. Diese Ergebnisse bieten eine umfassende Bewertung der mathematischen Argumentationsfähigkeiten von LLMs und geben Hinweise auf zukünftige Forschungsrichtungen zur Verbesserung der numerischen Verallgemeinerung in Sprachmodellen.
English
Mathematical reasoning in Large Language Models (LLMs) is often evaluated
using benchmarks with limited numerical ranges, failing to reflect real-world
problem-solving across diverse scales. Furthermore, most existing evaluation
methods only compare model outputs to ground-truth answers, obscuring insights
into reasoning processes. To address these limitations, we introduce
GSM-Ranges, a dataset generator derived from GSM8K that systematically perturbs
numerical values in math problems to assess model robustness across varying
numerical scales. Additionally, we propose a novel grading methodology that
distinguishes between logical and non-logical errors, offering a more precise
evaluation of reasoning processes beyond computational accuracy. Our
experiments with various models reveal a significant increase in logical error
rates-up to 14 percentage points-as numerical complexity rises, demonstrating a
general weakness in reasoning with out-of-distribution numerical values.
Moreover, while models demonstrate high accuracy on standalone arithmetic
tasks, their performance deteriorates substantially when computations are
embedded within word problems. These findings provide a comprehensive
evaluation of LLMs' mathematical reasoning capabilities and inform future
research directions for improving numerical generalization in language models.Summary
AI-Generated Summary