MathHay: Автоматизированный бенчмарк для математического рассуждения с длинным контекстом в LLMs
MathHay: An Automated Benchmark for Long-Context Mathematical Reasoning in LLMs
October 7, 2024
Авторы: Lei Wang, Shan Dong, Yuhui Xu, Hanze Dong, Yalu Wang, Amrita Saha, Ee-Peng Lim, Caiming Xiong, Doyen Sahoo
cs.AI
Аннотация
Недавние крупные языковые модели (LLM) продемонстрировали универсальные возможности в сценариях с длинным контекстом. Хотя некоторые недавние бенчмарки были разработаны для оценки возможностей LLM в длинных контекстах, отсутствует оценка математических рассуждений LLM в течение длительных контекстов, что является важным для применения LLM в реальных сценариях. В данной статье мы представляем MathHay, автоматизированный бенчмарк, разработанный для оценки математических рассуждений в длинном контексте LLM. В отличие от предыдущих бенчмарков, таких как "Игла в стоге сена", которые в основном сосредотачиваются на поиске информации в длинных текстах, MathHay требует моделей с возможностями как поиска информации, так и сложных математических рассуждений. Мы проводим обширные эксперименты на MathHay для оценки математических рассуждений в длинном контексте восьми лучших LLM. Даже лучшая модель, Gemini-1.5-Pro-002, все еще испытывает трудности с математическими рассуждениями в течение длительных контекстов, достигая лишь 51,26% точности на 128 тыс. токенов. Это подчеркивает значительное пространство для улучшения в рамках бенчмарка MathHay.
English
Recent large language models (LLMs) have demonstrated versatile capabilities
in long-context scenarios. Although some recent benchmarks have been developed
to evaluate the long-context capabilities of LLMs, there is a lack of
benchmarks evaluating the mathematical reasoning abilities of LLMs over long
contexts, which is crucial for LLMs' application in real-world scenarios. In
this paper, we introduce MathHay, an automated benchmark designed to assess the
long-context mathematical reasoning capabilities of LLMs. Unlike previous
benchmarks like Needle in a Haystack, which focus primarily on information
retrieval within long texts, MathHay demands models with both
information-seeking and complex mathematical reasoning abilities. We conduct
extensive experiments on MathHay to assess the long-context mathematical
reasoning abilities of eight top-performing LLMs. Even the best-performing
model, Gemini-1.5-Pro-002, still struggles with mathematical reasoning over
long contexts, achieving only 51.26% accuracy at 128K tokens. This highlights
the significant room for improvement on the MathHay benchmark.Summary
AI-Generated Summary