ChatPaper.aiChatPaper

GSM-Symbolisch: Verstehen der Grenzen mathematischer Argumentation in großen Sprachmodellen

GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models

October 7, 2024
Autoren: Iman Mirzadeh, Keivan Alizadeh, Hooman Shahrokhi, Oncel Tuzel, Samy Bengio, Mehrdad Farajtabar
cs.AI

Zusammenfassung

Die jüngsten Fortschritte bei Large Language Models (LLMs) haben das Interesse an ihren formalen Schlussfolgerungsfähigkeiten, insbesondere in der Mathematik, geweckt. Der GSM8K-Benchmark wird weitläufig verwendet, um die mathematischen Schlussfolgerungsfähigkeiten von Modellen anhand von Fragen auf Grundschulniveau zu bewerten. Obwohl die Leistung von LLMs bei GSM8K in den letzten Jahren signifikant verbessert hat, bleibt unklar, ob ihre mathematischen Schlussfolgerungsfähigkeiten tatsächlich vorangeschritten sind, was Fragen zur Zuverlässigkeit der gemeldeten Metriken aufwirft. Um diesen Bedenken entgegenzuwirken, führen wir eine groß angelegte Studie an mehreren SOTA-Open- und Closed-Modellen durch. Um die Einschränkungen bestehender Bewertungen zu überwinden, führen wir GSM-Symbolic ein, einen verbesserten Benchmark, der aus symbolischen Vorlagen erstellt wurde, die die Generierung eines vielfältigen Fragenkatalogs ermöglichen. GSM-Symbolic ermöglicht kontrolliertere Bewertungen, liefert wichtige Erkenntnisse und zuverlässigere Metriken zur Messung der Schlussfolgerungsfähigkeiten von Modellen. Unsere Ergebnisse zeigen, dass LLMs eine deutliche Varianz aufweisen, wenn sie auf verschiedene Instantiierungen derselben Frage reagieren. Insbesondere sinkt die Leistung aller Modelle, wenn nur die numerischen Werte in der Frage im GSM-Symbolic-Benchmark geändert werden. Darüber hinaus untersuchen wir die Fragilität der mathematischen Schlussfolgerung in diesen Modellen und zeigen, dass ihre Leistung signifikant abnimmt, wenn die Anzahl der Klauseln in einer Frage zunimmt. Wir vermuten, dass dieser Rückgang darauf zurückzuführen ist, dass aktuelle LLMs keine echte logische Schlussfolgerung durchführen können; sie replizieren Schlussfolgerungsschritte aus ihren Trainingsdaten. Das Hinzufügen einer einzigen Klausel, die für die Frage relevant zu sein scheint, führt zu signifikanten Leistungsabfällen (bis zu 65%) bei allen State-of-the-Art-Modellen, obwohl die Klausel nicht zur Schlussfolgerungskette beiträgt, die für die endgültige Antwort erforderlich ist. Insgesamt bietet unsere Arbeit ein nuancierteres Verständnis der Fähigkeiten und Grenzen von LLMs in der mathematischen Schlussfolgerung.
English
Recent advancements in Large Language Models (LLMs) have sparked interest in their formal reasoning capabilities, particularly in mathematics. The GSM8K benchmark is widely used to assess the mathematical reasoning of models on grade-school-level questions. While the performance of LLMs on GSM8K has significantly improved in recent years, it remains unclear whether their mathematical reasoning capabilities have genuinely advanced, raising questions about the reliability of the reported metrics. To address these concerns, we conduct a large-scale study on several SOTA open and closed models. To overcome the limitations of existing evaluations, we introduce GSM-Symbolic, an improved benchmark created from symbolic templates that allow for the generation of a diverse set of questions. GSM-Symbolic enables more controllable evaluations, providing key insights and more reliable metrics for measuring the reasoning capabilities of models.Our findings reveal that LLMs exhibit noticeable variance when responding to different instantiations of the same question. Specifically, the performance of all models declines when only the numerical values in the question are altered in the GSM-Symbolic benchmark. Furthermore, we investigate the fragility of mathematical reasoning in these models and show that their performance significantly deteriorates as the number of clauses in a question increases. We hypothesize that this decline is because current LLMs cannot perform genuine logical reasoning; they replicate reasoning steps from their training data. Adding a single clause that seems relevant to the question causes significant performance drops (up to 65%) across all state-of-the-art models, even though the clause doesn't contribute to the reasoning chain needed for the final answer. Overall, our work offers a more nuanced understanding of LLMs' capabilities and limitations in mathematical reasoning.

Summary

AI-Generated Summary

PDF226November 16, 2024