MathHay: Um Benchmark Automatizado para Raciocínio Matemático de Longo Contexto em LLMs
MathHay: An Automated Benchmark for Long-Context Mathematical Reasoning in LLMs
October 7, 2024
Autores: Lei Wang, Shan Dong, Yuhui Xu, Hanze Dong, Yalu Wang, Amrita Saha, Ee-Peng Lim, Caiming Xiong, Doyen Sahoo
cs.AI
Resumo
Os recentes modelos de linguagem de grande escala (LLMs) têm demonstrado capacidades versáteis em cenários de longo contexto. Embora alguns benchmarks recentes tenham sido desenvolvidos para avaliar as capacidades de longo contexto dos LLMs, há uma falta de benchmarks que avaliem as habilidades de raciocínio matemático dos LLMs ao longo de contextos extensos, o que é crucial para a aplicação dos LLMs em cenários do mundo real. Neste artigo, apresentamos o MathHay, um benchmark automatizado projetado para avaliar as capacidades de raciocínio matemático de longo contexto dos LLMs. Ao contrário de benchmarks anteriores como Needle in a Haystack, que se concentram principalmente na recuperação de informações dentro de textos longos, o MathHay exige modelos com habilidades tanto de busca de informações quanto de raciocínio matemático complexo. Realizamos experimentos extensivos no MathHay para avaliar as habilidades de raciocínio matemático de longo contexto de oito LLMs de melhor desempenho. Mesmo o modelo com melhor desempenho, Gemini-1.5-Pro-002, ainda enfrenta dificuldades com o raciocínio matemático ao longo de contextos extensos, alcançando apenas 51,26% de precisão em 128 mil tokens. Isso destaca o significativo espaço para melhoria no benchmark MathHay.
English
Recent large language models (LLMs) have demonstrated versatile capabilities
in long-context scenarios. Although some recent benchmarks have been developed
to evaluate the long-context capabilities of LLMs, there is a lack of
benchmarks evaluating the mathematical reasoning abilities of LLMs over long
contexts, which is crucial for LLMs' application in real-world scenarios. In
this paper, we introduce MathHay, an automated benchmark designed to assess the
long-context mathematical reasoning capabilities of LLMs. Unlike previous
benchmarks like Needle in a Haystack, which focus primarily on information
retrieval within long texts, MathHay demands models with both
information-seeking and complex mathematical reasoning abilities. We conduct
extensive experiments on MathHay to assess the long-context mathematical
reasoning abilities of eight top-performing LLMs. Even the best-performing
model, Gemini-1.5-Pro-002, still struggles with mathematical reasoning over
long contexts, achieving only 51.26% accuracy at 128K tokens. This highlights
the significant room for improvement on the MathHay benchmark.Summary
AI-Generated Summary