MathHay: un benchmark automatico per il ragionamento matematico a lungo contesto nei LLM.
MathHay: An Automated Benchmark for Long-Context Mathematical Reasoning in LLMs
October 7, 2024
Autori: Lei Wang, Shan Dong, Yuhui Xu, Hanze Dong, Yalu Wang, Amrita Saha, Ee-Peng Lim, Caiming Xiong, Doyen Sahoo
cs.AI
Abstract
I recenti modelli linguistici di grandi dimensioni (LLM) hanno dimostrato capacità versatili in scenari a lungo contesto. Sebbene siano stati sviluppati alcuni recenti benchmark per valutare le capacità a lungo contesto dei LLM, mancano benchmark che valutino le capacità di ragionamento matematico dei LLM su contesti lunghi, fondamentali per l'applicazione dei LLM in scenari reali. In questo articolo, presentiamo MathHay, un benchmark automatizzato progettato per valutare le capacità di ragionamento matematico a lungo contesto dei LLM. A differenza di benchmark precedenti come Needle in a Haystack, che si concentrano principalmente sull'estrazione di informazioni all'interno di testi lunghi, MathHay richiede modelli con capacità sia di ricerca di informazioni che di ragionamento matematico complesso. Conduci-amo ampi esperimenti su MathHay per valutare le capacità di ragionamento matematico a lungo contesto di otto LLM di alto livello. Anche il modello migliore, Gemini-1.5-Pro-002, fa ancora fatica con il ragionamento matematico su contesti lunghi, raggiungendo solo il 51,26% di accuratezza a 128K token. Ciò sottolinea il significativo margine di miglioramento sul benchmark MathHay.
English
Recent large language models (LLMs) have demonstrated versatile capabilities
in long-context scenarios. Although some recent benchmarks have been developed
to evaluate the long-context capabilities of LLMs, there is a lack of
benchmarks evaluating the mathematical reasoning abilities of LLMs over long
contexts, which is crucial for LLMs' application in real-world scenarios. In
this paper, we introduce MathHay, an automated benchmark designed to assess the
long-context mathematical reasoning capabilities of LLMs. Unlike previous
benchmarks like Needle in a Haystack, which focus primarily on information
retrieval within long texts, MathHay demands models with both
information-seeking and complex mathematical reasoning abilities. We conduct
extensive experiments on MathHay to assess the long-context mathematical
reasoning abilities of eight top-performing LLMs. Even the best-performing
model, Gemini-1.5-Pro-002, still struggles with mathematical reasoning over
long contexts, achieving only 51.26% accuracy at 128K tokens. This highlights
the significant room for improvement on the MathHay benchmark.