MathHay: LLMにおける長文脈数学推論のための自動ベンチマーク
MathHay: An Automated Benchmark for Long-Context Mathematical Reasoning in LLMs
October 7, 2024
著者: Lei Wang, Shan Dong, Yuhui Xu, Hanze Dong, Yalu Wang, Amrita Saha, Ee-Peng Lim, Caiming Xiong, Doyen Sahoo
cs.AI
要旨
最近の大規模言語モデル(LLMs)は、長い文脈のシナリオで多目的な能力を示しています。最近のいくつかのベンチマークは、LLMsの長い文脈における能力を評価するために開発されていますが、LLMsの数学的推論能力を長い文脈で評価するベンチマークが不足しており、これは実世界のシナリオでのLLMsの応用において重要です。本論文では、LLMsの長い文脈の数学的推論能力を評価するために設計された自動ベンチマークであるMathHayを紹介します。Needle in a Haystackのような以前のベンチマークは、主に長いテキスト内での情報検索に焦点を当てていましたが、MathHayは情報検索と複雑な数学的推論能力の両方を要求します。我々は、8つのトップパフォーマンスのLLMsの長い文脈の数学的推論能力を評価するためにMathHayで広範な実験を行いました。最も優れたモデルであるGemini-1.5-Pro-002でさえ、長い文脈での数学的推論に苦労し、128Kトークンでわずか51.26%の精度を達成しました。これは、MathHayベンチマークの改善余地が非常に大きいことを示しています。
English
Recent large language models (LLMs) have demonstrated versatile capabilities
in long-context scenarios. Although some recent benchmarks have been developed
to evaluate the long-context capabilities of LLMs, there is a lack of
benchmarks evaluating the mathematical reasoning abilities of LLMs over long
contexts, which is crucial for LLMs' application in real-world scenarios. In
this paper, we introduce MathHay, an automated benchmark designed to assess the
long-context mathematical reasoning capabilities of LLMs. Unlike previous
benchmarks like Needle in a Haystack, which focus primarily on information
retrieval within long texts, MathHay demands models with both
information-seeking and complex mathematical reasoning abilities. We conduct
extensive experiments on MathHay to assess the long-context mathematical
reasoning abilities of eight top-performing LLMs. Even the best-performing
model, Gemini-1.5-Pro-002, still struggles with mathematical reasoning over
long contexts, achieving only 51.26% accuracy at 128K tokens. This highlights
the significant room for improvement on the MathHay benchmark.Summary
AI-Generated Summary