ChatPaper.aiChatPaper

MathHay: Un banco de pruebas automatizado para el razonamiento matemático de largo contexto en LLMs

MathHay: An Automated Benchmark for Long-Context Mathematical Reasoning in LLMs

October 7, 2024
Autores: Lei Wang, Shan Dong, Yuhui Xu, Hanze Dong, Yalu Wang, Amrita Saha, Ee-Peng Lim, Caiming Xiong, Doyen Sahoo
cs.AI

Resumen

Los modelos de lenguaje de gran escala (LLMs) recientes han demostrado capacidades versátiles en escenarios de largo contexto. Aunque se han desarrollado algunos benchmarks recientes para evaluar las capacidades de largo contexto de los LLMs, hay una falta de benchmarks que evalúen las habilidades de razonamiento matemático de los LLMs sobre contextos largos, lo cual es crucial para la aplicación de los LLMs en escenarios del mundo real. En este artículo, presentamos MathHay, un benchmark automatizado diseñado para evaluar las capacidades de razonamiento matemático de largo contexto de los LLMs. A diferencia de benchmarks anteriores como Needle in a Haystack, que se centran principalmente en la recuperación de información dentro de textos largos, MathHay requiere modelos con habilidades tanto de búsqueda de información como de razonamiento matemático complejo. Realizamos experimentos extensos en MathHay para evaluar las habilidades de razonamiento matemático de largo contexto de ocho LLMs con mejor rendimiento. Incluso el modelo de mejor rendimiento, Gemini-1.5-Pro-002, aún tiene dificultades con el razonamiento matemático sobre contextos largos, logrando solo un 51.26% de precisión en 128K tokens. Esto resalta el considerable margen de mejora en el benchmark MathHay.
English
Recent large language models (LLMs) have demonstrated versatile capabilities in long-context scenarios. Although some recent benchmarks have been developed to evaluate the long-context capabilities of LLMs, there is a lack of benchmarks evaluating the mathematical reasoning abilities of LLMs over long contexts, which is crucial for LLMs' application in real-world scenarios. In this paper, we introduce MathHay, an automated benchmark designed to assess the long-context mathematical reasoning capabilities of LLMs. Unlike previous benchmarks like Needle in a Haystack, which focus primarily on information retrieval within long texts, MathHay demands models with both information-seeking and complex mathematical reasoning abilities. We conduct extensive experiments on MathHay to assess the long-context mathematical reasoning abilities of eight top-performing LLMs. Even the best-performing model, Gemini-1.5-Pro-002, still struggles with mathematical reasoning over long contexts, achieving only 51.26% accuracy at 128K tokens. This highlights the significant room for improvement on the MathHay benchmark.

Summary

AI-Generated Summary

PDF133November 16, 2024