ChatPaper.aiChatPaper

Wiskundige redenering in grote taalmodellen: Beoordelen van logische en rekenkundige fouten over een breed scala van numerieke waarden.

Mathematical Reasoning in Large Language Models: Assessing Logical and Arithmetic Errors across Wide Numerical Ranges

February 12, 2025
Auteurs: Safal Shrestha, Minwu Kim, Keith Ross
cs.AI

Samenvatting

Wiskundige redenering in Grote Taalmodellen (LLMs) wordt vaak geëvalueerd aan de hand van benchmarks met beperkte numerieke bereiken, die geen weerspiegeling vormen van probleemoplossing op diverse schalen in de echte wereld. Bovendien vergelijken de meeste bestaande evaluatiemethoden alleen modeluitvoer met grondwaarheidantwoorden, waardoor inzichten in redeneerprocessen worden verduisterd. Om deze beperkingen aan te pakken, introduceren we GSM-Bereiken, een datasetgenerator afgeleid van GSM8K die systematisch numerieke waarden in wiskundige problemen verstoort om de robuustheid van modellen over verschillende numerieke schalen te beoordelen. Daarnaast stellen we een nieuwe beoordelingsmethodologie voor die onderscheid maakt tussen logische en niet-logische fouten, wat een nauwkeurigere evaluatie van redeneerprocessen biedt dan enkel computationele nauwkeurigheid. Onze experimenten met verschillende modellen tonen een aanzienlijke toename in logische fouten - tot 14 procentpunten - naarmate de numerieke complexiteit toeneemt, wat een algemene zwakte aantoont in redeneren met numerieke waarden buiten de distributie. Bovendien tonen modellen weliswaar een hoge nauwkeurigheid bij op zichzelf staande rekenkundige taken, maar hun prestaties verslechteren aanzienlijk wanneer berekeningen worden ingebed in woordproblemen. Deze bevindingen bieden een uitgebreide evaluatie van de wiskundige redeneermogelijkheden van LLMs en informeren toekomstige onderzoeksrichtingen voor het verbeteren van numerieke generalisatie in taalmodellen.
English
Mathematical reasoning in Large Language Models (LLMs) is often evaluated using benchmarks with limited numerical ranges, failing to reflect real-world problem-solving across diverse scales. Furthermore, most existing evaluation methods only compare model outputs to ground-truth answers, obscuring insights into reasoning processes. To address these limitations, we introduce GSM-Ranges, a dataset generator derived from GSM8K that systematically perturbs numerical values in math problems to assess model robustness across varying numerical scales. Additionally, we propose a novel grading methodology that distinguishes between logical and non-logical errors, offering a more precise evaluation of reasoning processes beyond computational accuracy. Our experiments with various models reveal a significant increase in logical error rates-up to 14 percentage points-as numerical complexity rises, demonstrating a general weakness in reasoning with out-of-distribution numerical values. Moreover, while models demonstrate high accuracy on standalone arithmetic tasks, their performance deteriorates substantially when computations are embedded within word problems. These findings provide a comprehensive evaluation of LLMs' mathematical reasoning capabilities and inform future research directions for improving numerical generalization in language models.

Summary

AI-Generated Summary

PDF112February 14, 2025