ChatPaper.aiChatPaper

GSM-Simbólico: Comprendiendo las Limitaciones del Razonamiento Matemático en Modelos de Lenguaje Grandes

GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models

October 7, 2024
Autores: Iman Mirzadeh, Keivan Alizadeh, Hooman Shahrokhi, Oncel Tuzel, Samy Bengio, Mehrdad Farajtabar
cs.AI

Resumen

Los avances recientes en Modelos de Lenguaje de Gran Tamaño (LLMs) han despertado interés en sus capacidades formales de razonamiento, especialmente en matemáticas. El banco de pruebas GSM8K se utiliza ampliamente para evaluar el razonamiento matemático de los modelos en preguntas de nivel escolar. Aunque el rendimiento de los LLMs en GSM8K ha mejorado significativamente en los últimos años, sigue sin estar claro si sus capacidades de razonamiento matemático han avanzado genuinamente, lo que plantea dudas sobre la fiabilidad de las métricas informadas. Para abordar estas preocupaciones, realizamos un estudio a gran escala sobre varios modelos abiertos y cerrados de última generación. Para superar las limitaciones de las evaluaciones existentes, presentamos GSM-Simbólico, un banco de pruebas mejorado creado a partir de plantillas simbólicas que permiten la generación de un conjunto diverso de preguntas. GSM-Simbólico permite evaluaciones más controlables, proporcionando ideas clave y métricas más fiables para medir las capacidades de razonamiento de los modelos. Nuestros hallazgos revelan que los LLMs muestran una variabilidad notable al responder a diferentes instanciaciones de la misma pregunta. Específicamente, el rendimiento de todos los modelos disminuye cuando solo se alteran los valores numéricos en la pregunta en el banco de pruebas GSM-Simbólico. Además, investigamos la fragilidad del razonamiento matemático en estos modelos y demostramos que su rendimiento se deteriora significativamente a medida que aumenta el número de cláusulas en una pregunta. Planteamos la hipótesis de que este declive se debe a que los LLMs actuales no pueden realizar un razonamiento lógico genuino; replican pasos de razonamiento de sus datos de entrenamiento. Agregar una sola cláusula que parezca relevante a la pregunta provoca caídas significativas en el rendimiento (de hasta un 65%) en todos los modelos de última generación, aunque la cláusula no contribuya a la cadena de razonamiento necesaria para la respuesta final. En general, nuestro trabajo ofrece una comprensión más matizada de las capacidades y limitaciones de los LLMs en el razonamiento matemático.
English
Recent advancements in Large Language Models (LLMs) have sparked interest in their formal reasoning capabilities, particularly in mathematics. The GSM8K benchmark is widely used to assess the mathematical reasoning of models on grade-school-level questions. While the performance of LLMs on GSM8K has significantly improved in recent years, it remains unclear whether their mathematical reasoning capabilities have genuinely advanced, raising questions about the reliability of the reported metrics. To address these concerns, we conduct a large-scale study on several SOTA open and closed models. To overcome the limitations of existing evaluations, we introduce GSM-Symbolic, an improved benchmark created from symbolic templates that allow for the generation of a diverse set of questions. GSM-Symbolic enables more controllable evaluations, providing key insights and more reliable metrics for measuring the reasoning capabilities of models.Our findings reveal that LLMs exhibit noticeable variance when responding to different instantiations of the same question. Specifically, the performance of all models declines when only the numerical values in the question are altered in the GSM-Symbolic benchmark. Furthermore, we investigate the fragility of mathematical reasoning in these models and show that their performance significantly deteriorates as the number of clauses in a question increases. We hypothesize that this decline is because current LLMs cannot perform genuine logical reasoning; they replicate reasoning steps from their training data. Adding a single clause that seems relevant to the question causes significant performance drops (up to 65%) across all state-of-the-art models, even though the clause doesn't contribute to the reasoning chain needed for the final answer. Overall, our work offers a more nuanced understanding of LLMs' capabilities and limitations in mathematical reasoning.

Summary

AI-Generated Summary

PDF226November 16, 2024