Is uw model echt een goede wiskundige denker? Evaluatie van wiskundig redeneren met een checklist
Is Your Model Really A Good Math Reasoner? Evaluating Mathematical Reasoning with Checklist
July 11, 2024
Auteurs: Zihao Zhou, Shudong Liu, Maizhen Ning, Wei Liu, Jindong Wang, Derek F. Wong, Xiaowei Huang, Qiufeng Wang, Kaizhu Huang
cs.AI
Samenvatting
Uitzonderlijk wiskundig redeneervermogen is een van de belangrijkste kenmerken die de kracht van grote taalmodellen (LLM's) aantonen. Het vraagstuk hoe de wiskundige vaardigheden van LLM's uitgebreid te definiëren en te evalueren, en zelfs de gebruikerservaring in realistische scenario's te weerspiegelen, is een cruciaal onderwerp geworden. Huidige benchmarks richten zich voornamelijk op probleemoplossend vermogen, wat een aanzienlijk risico op overfitting van het model met zich meebrengt en niet accuraat het echte wiskundige redeneervermogen weergeeft. In dit artikel stellen we dat als een model een probleem echt begrijpt, het robuust en gemakkelijk toepasbaar moet zijn op een diverse reeks taken. Gemotiveerd door dit idee introduceren we MATHCHECK, een zorgvuldig ontworpen checklist voor het testen van taakgeneralizatie en redeneerrobustheid, evenals een automatisch hulpmiddel om checklists efficiënt te genereren. MATHCHECK omvat meerdere wiskundige redeneertaken en robustheidstesttypes om een uitgebreide evaluatie van zowel wiskundig redeneervermogen als gedragstesten mogelijk te maken. Met behulp van MATHCHECK ontwikkelen we MATHCHECK-GSM en MATHCHECK-GEO om respectievelijk wiskundig tekstueel redeneervermogen en multimodaal redeneervermogen te beoordelen, als verbeterde versies van benchmarks zoals GSM8k, GeoQA, UniGeo en Geometry3K. We passen MATHCHECK-GSM en MATHCHECK-GEO toe om meer dan 20 LLM's en 11 MLLM's te evalueren, waarbij we hun algehele wiskundige redeneervermogen beoordelen. Onze resultaten tonen aan dat terwijl toonaangevende LLM's zoals GPT-4o uitblinken in diverse vaardigheden op de checklist, veel andere modelfamilies een significante achteruitgang vertonen. Verdere experimenten geven aan dat, vergeleken met traditionele wiskundebenchmarks, MATHCHECK beter het echte wiskundige vermogen weerspiegelt en wiskundige intelligentie lineairer representeert, wat ons ontwerp ondersteunt. Met MATHCHECK kunnen we gemakkelijk gedetailleerde gedragsanalyses uitvoeren om modellen diepgaand te onderzoeken.
English
Exceptional mathematical reasoning ability is one of the key features that
demonstrate the power of large language models (LLMs). How to comprehensively
define and evaluate the mathematical abilities of LLMs, and even reflect the
user experience in real-world scenarios, has emerged as a critical issue.
Current benchmarks predominantly concentrate on problem-solving capabilities,
which presents a substantial risk of model overfitting and fails to accurately
represent genuine mathematical reasoning abilities. In this paper, we argue
that if a model really understands a problem, it should be robustly and readily
applied across a diverse array of tasks. Motivated by this, we introduce
MATHCHECK, a well-designed checklist for testing task generalization and
reasoning robustness, as well as an automatic tool to generate checklists
efficiently. MATHCHECK includes multiple mathematical reasoning tasks and
robustness test types to facilitate a comprehensive evaluation of both
mathematical reasoning ability and behavior testing. Utilizing MATHCHECK, we
develop MATHCHECK-GSM and MATHCHECK-GEO to assess mathematical textual
reasoning and multi-modal reasoning capabilities, respectively, serving as
upgraded versions of benchmarks including GSM8k, GeoQA, UniGeo, and Geometry3K.
We adopt MATHCHECK-GSM and MATHCHECK-GEO to evaluate over 20 LLMs and 11 MLLMs,
assessing their comprehensive mathematical reasoning abilities. Our results
demonstrate that while frontier LLMs like GPT-4o continue to excel in various
abilities on the checklist, many other model families exhibit a significant
decline. Further experiments indicate that, compared to traditional math
benchmarks, MATHCHECK better reflects true mathematical abilities and
represents mathematical intelligence more linearly, thereby supporting our
design. On our MATHCHECK, we can easily conduct detailed behavior analysis to
deeply investigate models.