Is uw model echt een goede wiskundige denker? Evaluatie van wiskundig redeneren met een checklist

Samenvatting

Uitzonderlijk wiskundig redeneervermogen is een van de belangrijkste kenmerken die de kracht van grote taalmodellen (LLM's) aantonen. Het vraagstuk hoe de wiskundige vaardigheden van LLM's uitgebreid te definiëren en te evalueren, en zelfs de gebruikerservaring in realistische scenario's te weerspiegelen, is een cruciaal onderwerp geworden. Huidige benchmarks richten zich voornamelijk op probleemoplossend vermogen, wat een aanzienlijk risico op overfitting van het model met zich meebrengt en niet accuraat het echte wiskundige redeneervermogen weergeeft. In dit artikel stellen we dat als een model een probleem echt begrijpt, het robuust en gemakkelijk toepasbaar moet zijn op een diverse reeks taken. Gemotiveerd door dit idee introduceren we MATHCHECK, een zorgvuldig ontworpen checklist voor het testen van taakgeneralizatie en redeneerrobustheid, evenals een automatisch hulpmiddel om checklists efficiënt te genereren. MATHCHECK omvat meerdere wiskundige redeneertaken en robustheidstesttypes om een uitgebreide evaluatie van zowel wiskundig redeneervermogen als gedragstesten mogelijk te maken. Met behulp van MATHCHECK ontwikkelen we MATHCHECK-GSM en MATHCHECK-GEO om respectievelijk wiskundig tekstueel redeneervermogen en multimodaal redeneervermogen te beoordelen, als verbeterde versies van benchmarks zoals GSM8k, GeoQA, UniGeo en Geometry3K. We passen MATHCHECK-GSM en MATHCHECK-GEO toe om meer dan 20 LLM's en 11 MLLM's te evalueren, waarbij we hun algehele wiskundige redeneervermogen beoordelen. Onze resultaten tonen aan dat terwijl toonaangevende LLM's zoals GPT-4o uitblinken in diverse vaardigheden op de checklist, veel andere modelfamilies een significante achteruitgang vertonen. Verdere experimenten geven aan dat, vergeleken met traditionele wiskundebenchmarks, MATHCHECK beter het echte wiskundige vermogen weerspiegelt en wiskundige intelligentie lineairer representeert, wat ons ontwerp ondersteunt. Met MATHCHECK kunnen we gemakkelijk gedetailleerde gedragsanalyses uitvoeren om modellen diepgaand te onderzoeken.

English

Exceptional mathematical reasoning ability is one of the key features that demonstrate the power of large language models (LLMs). How to comprehensively define and evaluate the mathematical abilities of LLMs, and even reflect the user experience in real-world scenarios, has emerged as a critical issue. Current benchmarks predominantly concentrate on problem-solving capabilities, which presents a substantial risk of model overfitting and fails to accurately represent genuine mathematical reasoning abilities. In this paper, we argue that if a model really understands a problem, it should be robustly and readily applied across a diverse array of tasks. Motivated by this, we introduce MATHCHECK, a well-designed checklist for testing task generalization and reasoning robustness, as well as an automatic tool to generate checklists efficiently. MATHCHECK includes multiple mathematical reasoning tasks and robustness test types to facilitate a comprehensive evaluation of both mathematical reasoning ability and behavior testing. Utilizing MATHCHECK, we develop MATHCHECK-GSM and MATHCHECK-GEO to assess mathematical textual reasoning and multi-modal reasoning capabilities, respectively, serving as upgraded versions of benchmarks including GSM8k, GeoQA, UniGeo, and Geometry3K. We adopt MATHCHECK-GSM and MATHCHECK-GEO to evaluate over 20 LLMs and 11 MLLMs, assessing their comprehensive mathematical reasoning abilities. Our results demonstrate that while frontier LLMs like GPT-4o continue to excel in various abilities on the checklist, many other model families exhibit a significant decline. Further experiments indicate that, compared to traditional math benchmarks, MATHCHECK better reflects true mathematical abilities and represents mathematical intelligence more linearly, thereby supporting our design. On our MATHCHECK, we can easily conduct detailed behavior analysis to deeply investigate models.

Is uw model echt een goede wiskundige denker? Evaluatie van wiskundig redeneren met een checklist

Is Your Model Really A Good Math Reasoner? Evaluating Mathematical Reasoning with Checklist

Samenvatting

Support