ChatPaper.aiChatPaper

MathHay : Un banc d'essai automatisé pour le raisonnement mathématique à long contexte dans les LLM

MathHay: An Automated Benchmark for Long-Context Mathematical Reasoning in LLMs

October 7, 2024
Auteurs: Lei Wang, Shan Dong, Yuhui Xu, Hanze Dong, Yalu Wang, Amrita Saha, Ee-Peng Lim, Caiming Xiong, Doyen Sahoo
cs.AI

Résumé

Les récents grands modèles de langage (LLM) ont démontré des capacités polyvalentes dans des scénarios à long contexte. Bien que certains récents bancs d'essai aient été développés pour évaluer les capacités à long contexte des LLM, il existe un manque de bancs d'essai évaluant les capacités de raisonnement mathématique des LLM sur de longs contextes, ce qui est crucial pour l'application des LLM dans des scénarios du monde réel. Dans cet article, nous présentons MathHay, un banc d'essai automatisé conçu pour évaluer les capacités de raisonnement mathématique à long contexte des LLM. Contrairement aux bancs d'essai précédents comme Needle in a Haystack, qui se concentrent principalement sur la recherche d'informations au sein de longs textes, MathHay exige des modèles à la fois des capacités de recherche d'informations et de raisonnement mathématique complexe. Nous menons des expériences approfondies sur MathHay pour évaluer les capacités de raisonnement mathématique à long contexte de huit LLM les mieux classés. Même le modèle le plus performant, Gemini-1.5-Pro-002, éprouve encore des difficultés avec le raisonnement mathématique sur de longs contextes, n'atteignant qu'une précision de 51,26% à 128 000 jetons. Cela souligne le grand potentiel d'amélioration sur le banc d'essai MathHay.
English
Recent large language models (LLMs) have demonstrated versatile capabilities in long-context scenarios. Although some recent benchmarks have been developed to evaluate the long-context capabilities of LLMs, there is a lack of benchmarks evaluating the mathematical reasoning abilities of LLMs over long contexts, which is crucial for LLMs' application in real-world scenarios. In this paper, we introduce MathHay, an automated benchmark designed to assess the long-context mathematical reasoning capabilities of LLMs. Unlike previous benchmarks like Needle in a Haystack, which focus primarily on information retrieval within long texts, MathHay demands models with both information-seeking and complex mathematical reasoning abilities. We conduct extensive experiments on MathHay to assess the long-context mathematical reasoning abilities of eight top-performing LLMs. Even the best-performing model, Gemini-1.5-Pro-002, still struggles with mathematical reasoning over long contexts, achieving only 51.26% accuracy at 128K tokens. This highlights the significant room for improvement on the MathHay benchmark.

Summary

AI-Generated Summary

PDF133November 16, 2024