ChatPaper.aiChatPaper

MathHay: Ein automatisierter Leistungsvergleich für mathematisches Schließen in LLMs

MathHay: An Automated Benchmark for Long-Context Mathematical Reasoning in LLMs

October 7, 2024
Autoren: Lei Wang, Shan Dong, Yuhui Xu, Hanze Dong, Yalu Wang, Amrita Saha, Ee-Peng Lim, Caiming Xiong, Doyen Sahoo
cs.AI

Zusammenfassung

Aktuelle große Sprachmodelle (LLMs) haben vielseitige Fähigkeiten in Szenarien mit langem Kontext gezeigt. Obwohl in letzter Zeit einige Benchmarks entwickelt wurden, um die Fähigkeiten von LLMs im langen Kontext zu bewerten, fehlt es an Benchmarks, die die mathematischen Schlussfolgerungsfähigkeiten von LLMs über lange Kontexte hinweg bewerten, was für die Anwendung von LLMs in realen Szenarien entscheidend ist. In diesem Paper stellen wir MathHay vor, einen automatisierten Benchmark, der entwickelt wurde, um die mathematischen Schlussfolgerungsfähigkeiten von LLMs im langen Kontext zu bewerten. Im Gegensatz zu früheren Benchmarks wie "Nadel im Heuhaufen", die sich hauptsächlich auf die Informationssuche innerhalb langer Texte konzentrieren, erfordert MathHay Modelle mit sowohl Informations suchenden als auch komplexen mathematischen Schlussfolgerungsfähigkeiten. Wir führen umfangreiche Experimente mit MathHay durch, um die mathematischen Schlussfolgerungsfähigkeiten im langen Kontext von acht leistungsstarken LLMs zu bewerten. Selbst das am besten abschneidende Modell, Gemini-1.5-Pro-002, hat immer noch Schwierigkeiten mit mathematischen Schlussfolgerungen über lange Kontexte hinweg und erreicht nur eine Genauigkeit von 51,26% bei 128K Tokens. Dies verdeutlicht den erheblichen Verbesserungsbedarf beim MathHay-Benchmark.
English
Recent large language models (LLMs) have demonstrated versatile capabilities in long-context scenarios. Although some recent benchmarks have been developed to evaluate the long-context capabilities of LLMs, there is a lack of benchmarks evaluating the mathematical reasoning abilities of LLMs over long contexts, which is crucial for LLMs' application in real-world scenarios. In this paper, we introduce MathHay, an automated benchmark designed to assess the long-context mathematical reasoning capabilities of LLMs. Unlike previous benchmarks like Needle in a Haystack, which focus primarily on information retrieval within long texts, MathHay demands models with both information-seeking and complex mathematical reasoning abilities. We conduct extensive experiments on MathHay to assess the long-context mathematical reasoning abilities of eight top-performing LLMs. Even the best-performing model, Gemini-1.5-Pro-002, still struggles with mathematical reasoning over long contexts, achieving only 51.26% accuracy at 128K tokens. This highlights the significant room for improvement on the MathHay benchmark.

Summary

AI-Generated Summary

PDF133November 16, 2024