ChatPaper.aiChatPaper

MathHay: Een geautomatiseerde benchmark voor wiskundige redenering met lange context in LLM's

MathHay: An Automated Benchmark for Long-Context Mathematical Reasoning in LLMs

October 7, 2024
Auteurs: Lei Wang, Shan Dong, Yuhui Xu, Hanze Dong, Yalu Wang, Amrita Saha, Ee-Peng Lim, Caiming Xiong, Doyen Sahoo
cs.AI

Samenvatting

Recente grote taalmodellen (LLM's) hebben veelzijdige mogelijkheden aangetoond in scenario's met een lange context. Hoewel er enkele recente benchmarks zijn ontwikkeld om de mogelijkheden van LLM's in lange contexten te evalueren, ontbreekt het aan benchmarks die de wiskundige redeneervaardigheden van LLM's over lange contexten evalueren, wat cruciaal is voor de toepassing van LLM's in real-world scenario's. In dit artikel introduceren we MathHay, een geautomatiseerde benchmark ontworpen om de wiskundige redeneervaardigheden van LLM's in lange contexten te beoordelen. In tegenstelling tot eerdere benchmarks zoals Needle in a Haystack, die zich voornamelijk richten op informatie ophalen binnen lange teksten, vereist MathHay modellen met zowel informatiezoekende als complexe wiskundige redeneervaardigheden. We voeren uitgebreide experimenten uit op MathHay om de wiskundige redeneervaardigheden in lange contexten van acht best presterende LLM's te beoordelen. Zelfs het best presterende model, Gemini-1.5-Pro-002, heeft nog steeds moeite met wiskundig redeneren over lange contexten en behaalt slechts 51,26% nauwkeurigheid bij 128K tokens. Dit benadrukt de aanzienlijke ruimte voor verbetering op de MathHay benchmark.
English
Recent large language models (LLMs) have demonstrated versatile capabilities in long-context scenarios. Although some recent benchmarks have been developed to evaluate the long-context capabilities of LLMs, there is a lack of benchmarks evaluating the mathematical reasoning abilities of LLMs over long contexts, which is crucial for LLMs' application in real-world scenarios. In this paper, we introduce MathHay, an automated benchmark designed to assess the long-context mathematical reasoning capabilities of LLMs. Unlike previous benchmarks like Needle in a Haystack, which focus primarily on information retrieval within long texts, MathHay demands models with both information-seeking and complex mathematical reasoning abilities. We conduct extensive experiments on MathHay to assess the long-context mathematical reasoning abilities of eight top-performing LLMs. Even the best-performing model, Gemini-1.5-Pro-002, still struggles with mathematical reasoning over long contexts, achieving only 51.26% accuracy at 128K tokens. This highlights the significant room for improvement on the MathHay benchmark.

Summary

AI-Generated Summary

PDF133November 16, 2024